假說檢定
假說檢定(Hypothesis testing)是推論統計中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。[1]一旦能估計未知母數,就會希望根據結果對未知的真正參數值做出適當的推論。
統計上對參數的假設,就是對一個或多個參數的論述。而其中欲檢驗其正確性的為虛無假說(Null hypothesis,記為),虛無假設通常由研究者決定,反映研究者對未知參數的看法。相對於虛無假說的其他有關參數之論述是對立假說(Alternative hypothesis,記為或),它通常反應了執行檢定的研究者對參數可能數值的另一種(對立的)看法(換句話說,對立假說通常才是研究者最想知道的)。
說明
假設檢定的過程,可以用法庭的審理來說明。先想像現在法庭上有一名被告,假設該被告是清白的,而檢察官必須要提出足夠的証據去証明被告的確有罪。
在証明被告有罪前,被告是被假設為清白的。
而檢察官提出的証據,是否足以確定該被告有罪,則要經過檢驗。這樣子的檢驗過程就相當於用T檢定或Z檢定去檢視研究者所搜集到的統計資料。
檢定過程
在统计学的文献中,假设检验发挥了重要作用。假设检验大致有如下步骤:
- 最初研究假设为真相不明。
- 提出相关的虛無假說和對立假說。
- 考虑检验中对样本做出的统计假设;例如,关于母體資料的分布形式或关于独立性的假设。无效的假设将意味此檢定的结果是无效的。
- 选择一个顯著水準 (α),若低于这个概率阈值,就會拒绝零假设。最常用的是 5% 和 1%。
- 選擇適合的检验统计量(Test statistic)T。
- 在設定虛無假說為真下推导检验统计量的分布。在标准情况下应该会得出一个熟知的结果。比如检验统计量可能会符合常態分布或司徒頓t分布。
- 根據在零假设成立時的檢定統計量T分佈,找到機率為顯著水準 (α)的區域,此區域稱為「拒絕域」(記作RR或CR),即在零假设成立的前提下,落在拒絕域的機率只有α。
- 針對檢定統計量T,根據樣本計算其估計值tobs。
- 若估計值tobs未落在拒絕域,則「不拒絕」虛無假說(do no reject )。若估計值tobs落在拒絕域,則拒絕零假设,接受對立假說。
要注意的是一般不會將檢定結果稱作「接受」虛無假說,而是因沒有顯著證據證明虛無假說為非,所以「不拒絕」虛無假說。
例子
淑女品茶是一個有關假設檢定的著名例子[2]。统计学家費雪的一個女同事,也是藻类学家的缪丽·布里斯托尔聲稱可以判斷在奶茶中,是先加入茶還是先加入牛奶。費雪提議給她八杯奶茶。缪丽已知其中四杯先加茶,四杯先加牛奶,但隨機排列,而她要說出這八杯奶茶中,哪些先加牛奶,哪些先加茶,检验统计量是確認正確的次數。零假设是她無法判斷奶茶中的茶先加入還是牛奶先加入,對立假說為她有此能力。
若單純以機率考慮(即缪丽沒有判斷的能力)下,八杯都正確的機率為1/70(这是个简单的组合问题),約1.43%,因此「拒絕域」為八杯的結果都正確。而測試結果為缪丽八杯的結果都正確[3],在統計上是相當顯著的的結果。也就是说,几乎可以排除她只是恰好猜对结果的可能。
参考文献
- Stuart A., Ord K., Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference & the Linear Model (Edward Arnold) §20.2.
- Fisher, Sir Ronald A. . James Roy Newman (编). [Design of Experiments]. Courier Dover Publications. 1956 [1935]. ISBN 978-0-486-41151-4. Originally from Fisher's book Design of Experiments.
- Box, Joan Fisher. . New York: Wiley. 1978: 134. ISBN 0-471-09300-9.