定義
部分的な集団同士を比較した時の平均的な傾向と、全体集団同士を比較したときの平均的な傾向とが、一致しないがために、 集団間の比較による(統計的な)推論が機能しないこと
分類
非形式的誤謬
背景・説明
Simpson’s paradox。名前は、「発見者」にちなむ。*1
The Interpretation of Interaction in Contingency Tables on JSTOR
ことの発端は、我らがカリフォルニア大学バークレー校にて実際に起こった「事件」である。1975年のScience論文が驚きをもって迎えられた。
Sex Bias in Graduate Admissions: Data from Berkeley | Science
学部への入学生の男女比(男:女 の割合)を調べた所、大学全体の男女比は、著しく男に偏っており、性差別嫌疑をかけられる。 しかし学部ごとの入学者における男女比を調べたところ、この傾向は逆転し、女バイアスの入学傾向にあった。 さらに調べてみると、女受験生には、合格率の低い学部にチャレンジするという統計的な傾向が見受けられた。
つまり、競争率が高い学部で男受験者がおおくの割合で振り落とされていたが、 そうした学部は合格者数自体が非常に低いために「女性合格者数」も(当然)少なく、他の、競争がゆるい学部(大きな学部)での男受験生・合格者数の多さに引っ張られ、全体の男女比が見かけ上は男にバイアスしてしまったのである。
こうした分析により、バークレーは「社会的お咎めなし」ということになった。
この誤謬*2 はおもに、次のような原因を持つ(網羅的ではない):
部分集合内における分散を考慮しないこと
数ではなく割合で議論してしまうこと
重要なのは(いつもどおり)、 推論がうまく機能しないということ。何かを過大評価している?過小評価している?それとも公正に評価している? こうしたことが何も分からないのである。
用例
おそらく数値例を出したほうが分かりやすい。
例. 平均値合戦
数学のテストの点数を高校Aと高校Bで比較する。
高校Aは理系90人(平均80点),文系10人(平均60点)
高校Bは理系10人(平均90点),文系90人(平均70点)
どちらの学校が数学に関して好成績と言えるか?
(シンプソンのパラドックス | 高校数学の美しい物語 を一部改変)
高校A全体での平均値を計算すると78点で、高校Bのそれは72点なので、どうやら高校Aのほうが好成績か…? しかしよく見ると、理系平均でも文系平均でも、高校Bが、高校Aを上回っているのである。これでは、どちらのほうが「好成績か」を比較することができない。
これは、サンプル内における分散の無視が原因である。 こうした比較は、実証研究の核とも言えるものであるが、「比較する意義・目的」を考えるべきである。
- そもそも、高校全体間で点数を比較する意義はあるのか?
- 逆に、どのような時に専攻別で点数を比較すると、何がわかるのか?
つまり「高校○○のほうが高校✕✕よりも優秀であった」と論ずるのであれば、その前提をはっきりさせるべきなのであろう。詭弁によく見られる、前提を曖昧にする論調の一つとも言える。
なおこの誤謬、2015年にPNASで出版された論文にも見られるのである:
Gender contributes to personal research funding success in The Netherlands
オランダでは女性のほうが男性に比べて競争的獲得資金(grant)のアクセプト率が低い…というもの。 おや?どこかで聞いた話だな?ということで反論論文。
当該の論文がシンプソンの誤謬に陥っていることを明確にしている。 いやぁ…………これは、題材が題材だけに、むちゃくちゃ恥ずかしいですよ。 レビュアーは出てきなさい。 これは掲載取り下げしてもいいレベルだと思います、PNAS。タイトルがキャッチーなだけに。
分析と雑感:包括適応度理論
以下は長くなるので、進化生態学者むけ。
さて、これを進化生態学的なシチュエーションに置き換えてみよう。その論文が、最近(また!)PNASに出た論文。*3
The general form of Hamilton’s rule makes no predictions and cannot be tested empirically
2013年にも同様の論文。*4
Limitations of inclusive fitness
詳しくは説明しないが、クラス構造を明確にせずに遺伝子頻度の変化を計算しているミスを犯している。 ただ、「実証研究においてHamilton’s ruleを適用するのは一般には難しい」ことは意識せねばならない。 また、直感的な正しさに訴えかけすぎたという功罪も僕は認める。 というかそういう論文はすでに出ている(Akçay and van Cleve 2016):
よりモダンな理論では、lineage fitnessが意味を持つ量である。そしてそれが数学的に包括適応度と等価であることが示されているのが
で、Peter Taylorはグラフ理論と包括適応度理論との融合的研究を試みている:
より具体的に、次のようなシチュエーションを考えてみよう:
残した子供の数を、アリルAとアリルBで比較する。簡単のためハプロイドとする。
アリルAは、環境Xで9個体(平均8個の卵)、環境Yで1個体(平均6個の卵)を残した。
アリルBは、環境Xで1個体(平均9個の卵)、環境Yで9個体(平均7個の卵)を残した。
どちらのアリルのほうが進化的に有利か(たくさん卵を残せるか)?
全体を比較すると、アリルAは、1個体あたり7.8個の卵を残し、アリルBは1個体あたり7.2個の卵を残している。先ほどの数学テストの例と同じである。 しかし環境X,Yごとにみると傾向は逆転するのである。 よってこの「平均だけを見る」推論は機能しない。
ここでの理論的解決策は、各環境を経験する確率に関して平均をとり、そこで初めてPrice方程式を適用してHamilton’s ruleを導くこと (Açkay & van Cleve 2015, Lehmann et al. 2016)。 そう、繁殖価を考えること。Fisher (1930), Grafen (2006), Barton (2011)
A theory of Fisher's reproductive value | SpringerLink
The Relation Between Reproductive Value and Genetic Contribution | Genetics
ちなみにこうした繁殖価は、Next-generation theoremを用いれば一発で導出可能。
Next-generation tools for evolutionary invasion analyses | Journal of The Royal Society Interface
もっと参考文献を挙げたいが、理論武装っぽくなるのでこのへんで。
重要なのは、「異なる環境にさらされると、同じ遺伝子コピーでも、違った子供の数を残すことがある」という点である。 実証研究でこれが難しいのは事実であろう。 しかしこれは理論の失敗ではなく、実務的な困難さなのである。
こうした論争によって、不幸せが生み出されている。
教訓
でも幸せならOKです!👍…幸せならね。