ダメな統計学
http://id.fnshr.info/2014/12/17/stats-done-wrong-toc/
知っている部分もあったが面白かった
- (1) はじめに
- 統計的処理がきちんと行われず誤った結論が導きだされている論文は半数以上かもしれないらしい(医学の話)
- (2) データ分析入門
- (3) 検定力と検定力の足りない検定
- (4) 擬似反復:データを賢く選べ
- 100 人で 10 回計測 → 1000 のデータ点?ではない
- 「擬似反復」と呼ばれる
- 対策法
- 独立していないデータ点の平均をとる
- 独立していないデータ点を別個に分析 → 多重比較
- 階層モデル
- (5) p値と基準率の誤り
- 「基準率」 = 調査対象のもののうち,真に有効であるものの割合
- p = 0.05 で判定を行うと,5% は擬陽性になる
- 真に陽性である確率(=基準率)と併せて考えないと結果が殆ど擬陽性になる
- p < 0.05 ≠ 「これの結果が偶然の確率は 5% だ」 (よくある勘違い)
- 偽発見率を制御する方法:ベンジャミーニ=ホッホベルク法
- (6)有意であるかないかの違いが有意差でない場合
- (7) 停止規則と平均への回帰
- 停止規則 = 有意差が出たら実験を止める
- しばしば結果が実際より誇張される
- サイズの違う集合での平均点の「上位」「下位」は両方小さい集合になる(ばらつくから)
- 停止規則 = 有意差が出たら実験を止める
- (8) 研究者の自由:好ましい雰囲気?
- 統計処理の際,無視して良い要素,除外する outlier 等で結果が大きく好ましい方向にねじ曲げられる
- (9) 誰もが間違える
- データを公開してほしい
- (10) データを隠すこと
- データを要求して送ってくる著者グループは 3/4
- データを得られた研究の半分がデータの処理に誤りがあった
- 15% では誤りによって有意な結果が出てしまっていた
- データを共有したがらないグループの方が誤りが多い
- マイナーな論文誌のほうがデータ処理法を隠す
ここから後は技術的な話ではなく教育等についての議論
次に誰かが「この結果は p<0.05で有意だから、これが偶然である確率は20分の1しかない!」と言うのを聞くことがあったら、私のためにその連中の頭を統計の教科書でぶったたいでください