summary()
函数返回结果的含义
以下内容参考了"R Cookbook" section 11.4。
对于函数 \(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n + \epsilon\), 执行下面的代码,得到的结果各部分含义是:
mdl <- lm(y ~ x)
summary(mdl)
Residuals
Residuals 表示公式中 残差 \(\epsilon\) 的分布情况,理想状态下,残差应该符合正态分布, 即平均值(Median)为0,Min和Max基本对称(至少同一量级), 1Q和3Q基本对称(至少同一量级),所以Median越小越好。
Coefficients
每一行代表其中一项的系数 \(a_i\),例如第一行 (Intercept) 表示 截距 \(\beta_0\) 的 估计值(Estimate,这一项大概是多少)、标准差(Std. Error,估计值上下浮动的范围)、 t-value和Pr表示此系数对 \(y\) 影响的大小,三颗星表示此变量对 \(y\) 影响显著, 两颗星次之,直到空白表示影响最小。 Signif. codes 一行相当于“图例”,解释了三颗星、两颗星等等的数值范围。
第二行、第三行分布表示 \(\beta_1\)、\(\beta_2\) 的 估计值、标准差等, 具体实例可以参考 "R Cookbook" section 11.4。
Residual standard error
This reports the standard error of the residuals (σ)—that is, the sample standard deviation of ε.
这部分与 Residuals 部分似乎都反映的是 \(\epsilon\) 的某些性质,具体关系有待进一步研究。 degrees of freedom 的含义也需要进一步厘清。
R-squared
\(R^2\) 表示 \(y\) 的方差中线性部分所占的百分比,0表示线性部分完全无法解释 \(y\) 的变化, 模型质量最差,1表示 \(y\) 的变化完全可以由线性部分解释,质量最好。 另外 Adjusted R-squared 比 Multiple R-squared 解释效果更好。
F-statistic
p-value 小于 0.05 表明模型有效(significant),否则表明模型无效(insignificant)。