假设检验
从一个例子开始:
甲告诉乙:我的硬币没有动过手脚,抛硬币正反面(正面是字,反面是花)出现的概率各\(1/2\)。
乙怀疑甲对花的一面增加了重量,出现花的概率大于出现字的概率。
怎样验证甲说的是真是假? 只能通过抛硬币的方法验证。
两次之后都是花朝上,如果硬币没被改过, 出现这种情况的概率是\(0.5 \times 0.5 = 0.25\)。
再抛两次,仍然都是花朝上,概率是\(0.5^4 = 0.0625\),
再抛了6次(共10次),只有两次字朝上,其他8次花朝上, 基于这个事实,是否可以确定硬币被修改过?
这就是假设检验 (hypothesis testing),这里假设是“硬币没被改过”,假设检验的方法是抛10次硬币, 实验结果是8次为字,2次为花。
p-value
基于p-value的假设检验是假设检验的方法之一,它采用反证法: 假设\(H_0\)为真,找到这个情形下的概率分布,计算本次试验结果在这个分布下出现的概率, 如果这个概率很低,就与“小概率事件在一次实验中不可能发生”冲突, 从而证明\(H_0\)不成立。 采用这种方式的假设检验包含4步:
-
提出null hypothesis (\(H_0\)) 和 alternative hypothesis (\(H_A)\),上面的例子中, \(H_0\)是硬币两面相同,\(H_A\)是硬币两面不同。
-
进行一次实验,得到实验结果数据,这里通过抛10次硬币,得到的结果是8次为字,2次为花。
-
计算p-value:基于\(H_0\)为真的假设,计算实验结果出现的概率, 以及在\(H_A\)方向上比实现结果更极端(更不利于\(H_0\))的概率的和。 这里当\(H_0\)为真时,抛硬币符合二项分布,且花朝上的数学期望是 0.5, 及 \(X \sim B(n, \mu) = B(10, 0.5)\), 所谓“在\(H_A\)方向上比实现结果更极端”,在这里是“如果硬币确实花面重的话, 花朝上的次数比8次还多的情形”, 所以 p-value \(= P(8 \ge X \le 10) =0.05\);
-
将p-value与我们实现规定的“显著水平” (significant level, \(\alpha\)) 比较, 如果 \(p \gt \alpha\),说明无法推翻 \(H_0\),否则认为 \(H_0\) 不成立,\(H_A\) 成立。 假设这里我们选择 \(\alpha = 0.1\),由于 \(p \lt \alpha\),\(H_0\)被推翻, 我们认为硬币两面是不同的。
p-value的含义是:假设\(H_0\)为真时,本次实验以及比本次实验更不利于\(H_0\)的实验结果出现的概率之和。 如果这个值很低,就表明“这次实验发生了一个小概率事件”。 这就与“小概率事件在一次实验中不可能发生”这一假设发生了冲突。 要解决这个冲突,要么放弃“小概率事件在一次实验中不可能发生”, 要么放弃\(H_0\),基于p-value的假设检验方法坚持“小概率事件在一次实验中不可能发生”, 所以推出:当\(p \lt \alpha\) 时,\(H_0\) 不成立。
除了基于p-value的假设检验方法,还有其他方法,例如 3.1 - Hypothesis Testing (Critical value approach).
ISL Simple Linear Regression 中 t-statistics 与 p-value的说明
An Introduction to Statistical Learning 3.1.2节讨论了基于p-value的假设检验方法确定simple linear regression中自变量系数 \(\hat \beta_1\)的方法,按照上面的4步过程,分解计算过程如下:
-
\(H_0\): \(X\), \(Y\) 不相关,即 \(\beta_1 = 0\),\(H_A\): \(\beta_1 \gt 0\);
-
根据式 (3.14) 以及已经计算出来的 \(\hat \beta_1\) 计算出 \(t\) 值:
-
假设 \(H_0\) 成立,则式 (3.14) 符合 自由度为 \(n-2\) 的 \(t\) 分布,当 \(n>30\) 时,可以近似为正态分布, 由于 \(H_A\)倾向于 \(t\) 越大越好(\(t\) 越大 \(\beta_1 \gt 0\) 可能性越大), 所以 \(p = P(\lvert T\rvert \gt t)\);
-
当 \(p\) 很小时,说明单次试验出现了小概率事件,所以 \(H_0\) 不成立, \(X\) 与 \(Y\) 相关。
Ref:
3.2 - Hypothesis Testing (P-value approach)