読者です 読者をやめる 読者になる 読者になる

Life is Beautiful

主に進化生物学の理論のブログです。不定期更新予定。

「シミュレーションモデル」の結果に、仮説の有意性検定を行なってはならない!

White et al. 2014: Ecologists should not use statistical significance tests to interpret simulation model results Oikos

ちょっと前の論文ですが。生態学モデリングにはいくつかの方法があります。近年は、個体ベースモデルを含むstochatsticな計算機的手法が多く取り入れられています*1。それ以外にも、確率過程を何らかの形で内包するモデル、より一般に確率モデルは、シミュレーションすることで"しか"結果が得られません。そんなモデルを、シミュレーションモデルと呼ぶことにします。*2

で、そんなシミュレーションモデルでは、1回のシミュレーションを1つのサンプルと扱います。しかしたとえば100回まわした場合には、それらの結果に「統計的な」解釈を与えたくなってくるわけです。とくに、「頻度主義」的に、「P 値」を計算したくなるが、頻度主義者の心。しかしそれに対して「ちょっと待ったぁ!」というのがこの論文。アブストを訳すと:

シミュレーションモデルは、生態系のダイナミクスを表現するために随所で用いられている。シミュレーションモデルに関するよくある疑問は、モデルに現れるパラメータの値や関数形を変えた場合に、結果はどのように変わるかというものだ。研究者の中にはこれに対して、ANOVAなどの頻度主義的な仮説検定法を用いている者もいるようだが、これは2つの理由で不適切だ。まず、P 値は、統計学的な検出力(つまり反復)によって決められるものであり、それはシミュレーションの文脈においてはいくらでも高くなりうるものであり、したがって効果量によらずいくらでも小さいP 値を吐き出せるのだ。第二に、処理(たとえばパラメータ値の変更)間で結果に差がないとする帰無仮説はア・プリオリに誤りである、と調べている人は知っているのだから、そもそも検証の前提とすべきものが間違っているのだ。P 値が小さいことによって、観察された差異に対する誤解・過大評価/過小評価が生ずる*3ことがある以上、P 値を用いるのは(単なる正誤の問題ではなく)厄介な問題なのである。この論文では、モデルを組み立てる人はこのような慣習を捨て去り、シミュレーション結果間の差異の度合に注目するべきである、ということを論ずる。

イントロ
  • 生態学的なシミュレーションモデルの結果を解析するために統計的な手法を用いるというのは非常によく観られる光景だ。
  • たとえばパラメータ値、あるいはモデルの関数形(線形から二次へなど)を変更した時に、その結果がどう変わるかの応答を調べるためにANOVA(分散分析)を用いることもあるだろう。
  • 我々の考えでは、シミュレーションモデルの結果に有意性検定(以下、検定と呼ぶ)を行なうのは、統計理論の誤用だ。
  • そうではなくて、シミュレーション間の差異の度合(効果量)に注目することを推奨する;それと同時に、検定が適切であり得る場合ーーーというのが存在するならば、の話だがーーーに関する議論を展開する。

この"discussion regarding when – if ever – statistical significance tests could be appropriate"の、"if ever"に、著者らの並々ならぬアンチ頻度主義的なスタンスが看取されて興味深い。

  • 検定に対して過度な強調を置くことの危険性は、生態学ではよく知られているものだ。
  • P 値というのは効果量や検出力を以て初めて意義があるものであり、生物学的な重要性を必ずしも示唆はしない、ただの閾値であることは繰り返し注意喚起されている。
  • それに加え、シミュレーションモデルの結果を検定することには2つほど問題がある:1つ目は検出力。検出力というのは反復によって決まる量であるのだから、サンプルサイズ、すなわちシミュレーションを回す回数によって決まる。2つ目は、帰無仮説の設定。通常の仮説検定においては、帰無仮説が「真」かどうかを知らない。しかしシミュレーションモデルでは、少なくともプログラマーはパラメータ*4を知っているのだから、「パラメータや関数を変更した場合に生ずる差異に統計的な意味がない、という命題が偽であるとア・プリオリに判っているような帰無仮説」を検証する価値はない。

1つ目の話は、P 値が有意水準を上回った場合にも、改めてシミュレーション結果(=サンプル)を追加すれば簡単に有意差は出せる(ことがある)ので、そもそも0.05とか0.01という水準の意味がそれこそなくなってしまうというもの。2つ目は、後出しジャンケンということだ。あるいは、論理上はトートロジーに近いという話でしょう。差を設けたのだから差があるのは当たり前なのです。

また、この次のパラグラフにおいては、「統計的有意性に注目するのは不適切である一方で、効果量の違いを評価することには意味がある」と述べており、また、ANOVAや回帰など、頻度主義的な方法によって、そういった評価が可能なこともあるということが断られています。次のセクションからは、実際の論文のデータや解析を例示することで、上のような問題が現れることを示していきます。

MANOVA with n=24,000

Marzloff et al. 2013: Sensitivity analysis and pattern-oriented validation of TRITON, a model with alternative community states: Insights on temperate rocky reefs dynamics Ecological Modelling

  • ロブスター Jasus edwardsii、ウニ Centrostephanus rodgersii、海藻2種 Ecklonia radiataおよびPhyllospora comosaの群集ダイナミクスモデル(特に、alternative-states dynamics model*5)。
  • ロブスターの捕食行動の機能的応答(Hollingのタイプ1〜3)を変えた場合にどういった違いが生まれるか、群集ダイナミクスの感度分析。
  • 機能的応答1,2,3の3通りのそれぞれに対して、8000回のシミュレーション(初期条件のみ異なる)をまわし、MANOVAで、群集組成の多変量解析に関する指数に生じた差異を解析。
  • 結果、機能的応答には、有意な効果が認められた; \( p <10^{-15}\), \( F_{2,23997} = 67.5\).
  • しかしその有意性は、F検定で約24000に近い自由度があることに起因することをMarzloffらも認めている。
  • そのため、統計的な有意性にもとづいてではなく、ダイナミクスのグラフを用いて結果を視覚的に比較。すると、「統計的有意性」は強いにもかかわらず、視覚的にはほとんど違いがないと結論づけられた;つまり機能的応答はダイナミクスに大きな違いをもたらすわけではない。

最後の「視覚的に結論をつけた」あたり、著者が途方に暮れた感が見て取れる。

  • この論文での解析は、著者らが最初に述べた、シミュレーションモデルへの仮説検定の孕む2つの問題をうまく例示してくれている。
  • Marzloff et al. (2013) が答えようとした問題は「ロブスターの機能的応答は、群集の平衡状態に関するモデルの予測に影響をあたえるか?」だったが、これは、帰無仮説の検証には不適切だ:機能的応答の関数形(1〜3)を変えれば群集ダイナミクスに違いが生まれるなんてのは初めから知っていることだ。
  • 従って知りたいのは、「違いが生まれるかどうか」ではなく「どの程度違うのか」というものだ。
  • 帰無仮説は暗に次のように立てられている:「model results using each of the three functional responses are drawn from populations with identical distributions」(「3つの異なる機能的応答から得られた結果」が実は同一の確率分布からサンプルされたものである)
  • その帰無仮説が偽なのは調べずとも明らか。なので、わざわざ統計的な有意性を論ずる事自体、無意味である。
  • なので、生ずるとすれば過誤は第二種のみであり、それを回避できるような検出力がありさえすれば十分だ。
  • 第二にそもそも、この研究の枠組みにおいては有意水準はどんな値でもいい。
  • 0.05だろうが0.01だろうが\( 10^{-15}\)だろうが、24000もありゃ、生物学的な効果量に関係なく、そりゃー有意差は出る。
  • それはシミュレーションモデルだけではなく、フィールドデータや実験データの解析においても通有する性質である。
  • 特にシミュレーションモデルでは反復する(サンプルを新しく得る)のは簡単だし非常にロウコストであり、この一般的な原理の、おろかしいまでの極例と言える。
  • 視覚的に違いを論ずるというやり方をとったのには納得しないものの、Marzloff ら2013がMANOVAにおいて小さいP値を重視しないという点は正しい:視覚的なやり方ではなく、直接にMANOVAにおいて効果量を直接算出するか、あるいは単に群集の状態の従う確率分布(平衡状態が従う確率分布)を主成分分析によって比較すればよかった。

主成分分析をすることで、どのパラメータが強く効いているか、というのをある程度は量的に評価できるわけです。

  • なにも、「帰無仮説は偽であることがア・プリオリに判っている」というのは、生態学のシミュレーションモデルに限った話ではない:Johnson (1999)は自明に棄却される帰無仮説をまとめている*6
  • たとえば、人が踏み込んで伐採をおこなった森林と踏み込まれていない森林とで、樹木の密度は同程度である、など(明らかに異なる)。
  • 一般に異なる2地点で何らかの変数(魚の個体数など)を比較した場合、差がみられるのが、観察に基づく研究においては普通である(e.g. Johnson 1999)。

これはまさに、統計的な有意性が、生物学的な重要性を保証するわけではないという好例と言えましょう。

  • 2つの地点が全く同一の確率分布に従う(あるいは全く同一の母集団に属する)とは考えにくい。
  • これは、操作実験において処理をランダムに割り当てるという状況とは対照的なものだ(処理がランダム効果の場合には帰無仮説の成立が理にかなった期待といえよう)。
  • シミュレーションモデルはある意味で数値実験を行なうことであるのだから、操作実験と同様の解析を行ないたくなるのだろう。
  • しかしシミュレーションモデルというのは、真のモデルが解っている;処理(パラメータ値や関数形の違い)とそれへの応答の間の関係というのは、あってアタリマエですでに知っているものなのだ。
  • 問題は単に「そういった関係を統計的に検出するためには、反復数はいくら必要なのか」というものでしかなくなってしまっている。
  • 実証生態学では、生物学的な意義と統計的な有意性とが普通はある程度、対応づくことは認めよう。
  • しかしその対応は、膨大な反復回数を稼げるシミュレーションモデルにおいては完全に損なわれるのである。

シミュレーションモデルというのは、自分でパラメータなどの操作をセットした上で行えるので、推論の様式がそもそも野外実験研究とは異なるわけです。なるほど、確かにそうですね。シミュレーションモデルというのは、予測をするための実験なのでしょう。

査読者の問題なのか?

解析方法というのは査読者たちの責任の一部でもあるわけですから、査読のプロセスがまずいこともあるのではないか、というのは自然な発想です。

  • 著者らがMarzloff et al. 2013を仮説検定のバカバカしさの好例として用いたことには、Marzloffら自身が彼らの研究の中でのP値の無意味さを認めていたからという理由もある。
  • 現にMarzloffらがそういった解析に乗り気でないことから、おそらく査読者につっこまれたから、という事情がありそうだ。
  • 著者ら自身も査読者からそういった(ナンセンスな)指摘をうけたことがあるし、よくある困った出来事なのではないか。
  • こういった問題(シミュレーションモデルでのP値の算出)は、査読者に突っぱねられた場合を考慮すると、文献検索で明らかになるよりももっと一般的なものなのではないか。
  • 査読者にそういうP値算出のナンセンスな指摘をされるという経験もある。

最後のことは最近、友人から実際に話を聞きました。本当にあるのです。そういったナンセンスな指摘へのrebuttalには、この論文を引用したいところです。なお著者ら個人個人も逆に査読者として、そういった解析をした論文をつっぱねたことがあるようです。

  • Samhouri et al. 2009 :生態系のキーとなる"性質"(多様性、生産性、平均栄養段階など)を表現するシステム特異的な"インジケーター"(特定の機能群のバイオマス)を特定するモデルを7つ構築。
  • 各モデルにおいて、漁業範囲の摂動をシミュレートし、各シミュレーションにおいて"インジケーター"と"性質"との関係を調べる。
  • その解析の中で、著者らは相関係数の算出こそ行えど、その有意性は論じていない。さらには、サンプルサイズ(シミュレーションの回数)が大きいので、生物学的に重要でない相関が有意と判定されうることを断っている。
  • この「欠陥」は査読者とのやりとりで指摘された点であろう;査読者にとっては、P値がわからない限りは、そういう相関は不確かだからだ。実際、そのようにインジケーターの使用への支持/不支持をP値で以て決定している論文などやまほどある。
  • 結果的にSamhouriら査読者との議論に勝利したものの、いったいそういう不適切な解析を主張する「誠実な」レビュアーがどれだけいることだろうか。
  • P値の重要性と厳格な仮説設定は若い生態学*7に早い時期に頻繁に教えこまれているはずなのだから、こんな誤りは理解し難い。

そして最後に著者らは、本論文がレビュアーの理解にもモデルを建てる人の理解にも繋がることを願っている、とこのセクションを締めくくっています。

頻度主義的な統計学を、生態学のシミュレーションモデルで使うことはあるのか?
  • 異なる真のモデルをもつシミュレーションの結果に仮説検定を実施することは意味が無い、ということをこれまで見てきたが、頻度主義的な統計解析がシミュレーションモデルの役に立つ状況もある。
  • たとえばANOVAは、分散を分解して多変数をふくむシミュレーションで効果量を算出するのに便利でよく知られたフレームワークだ。
  • ・・・P値の算出などしなければ、ね。

ではどのように役立つのかの具体例を。

  • Corell et al. 2012バルト海でプランクトン性の海洋生物の幼生の移動分散距離に影響する要素を検証するために流体力学的な物質循環モデルを構築。ラグランジアン粒子(目に見える擬似的な「幼生」体)を流し、3Dの海流による漂流を追跡。そのなかで、幼生の軌道はランダムな乱流に影響をうけるという意味で、移動分散は確率的な挙動を示す。
  • 一度のシミュレーションでは216通りの処理コンビネーション*8。シミュレーション回数は3回(パラメータのチョイスは3通りということ)。

いくら計算時間がかかるとはいえ3回というのには驚きですが、どのように解析するのでしょうか。

  • CorellらはANOVAを用いたが、P値を計算するのではなく、ANOVAで吐き出される分散成分を解析し、どの要因が移動分散の変異に最も強く貢献するかを調べている。
  • この用法は極めて正しい!(Legendre and de Cáceres 2013
  • ほかにも、コルモゴロフ・スミルノフ検定を用いてもよいが…とにかくここで言いたいのは、単純にP値を計算するのではなく、効果量や検定統計量そのものに注目すべきだ!ということ。

他には、どういう時に役立つのか:

Another context in which hypothesis testing is usefully applied to simulation results is when one desires to simulate the empirical measurement of a system. This might be done to test alternative statistical or experimental approaches in a system with known dynamics, or to determine how the output of a simulated process compares to observed data. In the first case, models are used to simulate both process and measurement error, and model analysis focuses on determining the level of empirical replication needed to detect a process (Hoban et al. 2012) or validating a new statistical method for detecting certain phenomena (Dakos et al. 2012). These studies are essentially statistical power analyses in which the known falsehood of the null hypothesis is taken as a given.

ここはよく解らなかった。Dakos et al 2012, Hoban et al. 2012が参考文献として挙げられていました。目を通さねば…。

  • あるいは、シミュレーション結果と実証データを比較する時にも有効である。
  • Walker & Cyr 2007は群集の中立モデルをシミュレートし、観察されている種の個体数分布とマッチするかを調べている。
  • 一般に、観測データとシミュレーション結果との比較は、ここでの焦点にはないが、頻度主義的なアプローチも有用であることを注意喚起しておきたい;ただベイズ的なABC法などのほうが信頼に足るが。
結論
  • 生態学者たちも、確率的変動性、時空間的な非一様性、複雑な非線形性が、野外のシステムでは重要であることを認め始めている
  • それがさらに大規模シミュレーションのモチベーションを掻き立てる
  • 限られたサンプルサイズで実施される仮説検定の枠組みを、膨大に結果を吐き出してくれるシミュレーション結果に適用するのがいかに不適切かを論じた。
  • 頻度主義的な仮説検定の枠組みが役に立つこともあることをいくつか例示した。他の例もあるだろう。
  • しかし、やはり有意性という考え方をシミュレーションモデルに適用するのはまずい、というのを、論文の著者、そして査読者に、注意喚起したい
  • 生態学のデータにおいて、統計的な有意性ではなく、生物学的な重要性を見出すことがキーとなるはずだ

以上でこの論文は締めくくられています。全体的に非常にクリアーな論調で解りやすいコメンタリーでした。進化生態学の研究を行なっている立場としては、なかなか身につまされる思いでした。特に、個体ベースモデルでパラメータを変えたあとに統計処理を行なうことの不味さも知りました。

またこういった「統計的な有意性」の「意味のなさ」は、実証研究にも偏在的だと思います。たとえば、この論文では、個体のパーソナリティを人為的にカテゴリ分けするときに、とある行動のスコアにもとづいて個体をランク付けし、上位30個体をグループA、下位30個体をグループCとして決め、それらのグループ間に、スコア平均値に差があるかを調べていました(んなもんはあるに決まっている…)。まあでも、著者も査読者もP値があると安心する、という可能性は考えられそうです。ほぼ信奉に近いでしょう。*9

有意水準というのは、各サンプルが独立同分布に従っていて、そこからランダムに選ばれてきたデータの断片である、という頻度主義的な考え方にもとづいています。そして反復数が稼げる限りはいくらでも満足できる、あくまでヒトの決めた規準に過ぎず、質的な違い情報呈示することしかできません(違うとしたらどのくらい違うのか、は基本的に問わない)。しかし伝統信奉的に用いられてきた規準だけに、払拭するのは非常に困難と言えましょう。

*1:この個体ベースモデルには多くの誤解と誤用があるのですが今回はそれには主眼を置くつもりはありません。とにかくIBMの本質は、注目する集団において、各個体に"サイコロ"を握らせ、突然変異を許して、何世代も生活史をまわすことにあります。

*2:ただ、ブートストラップ法や、ランダマイゼーションはちょっと違いますね。。そこはお断りを入れておきます。

*3:small P-values lend a false sense of importance to observed differences; 観察された差異に対して、その重要性に対する誤った量的な解釈が与えられることを指すのだと思う。

*4:もっと精確には真のモデル

*5:生態系、たとえば群集の経験する平衡状態というのは離散的に複数あり、摂動下ではその離散的な状態が構造安定で、パラメータの大きな変化によってのみ、別の平衡状態へとシフトする、というモデル。

*6:竹中さんによる解説

*7:budding ecologists;これから花開かんとする若い生態学者たち。粋な表現だ

*8:[They] created a factorial design to examine each of 216 individual treatment combinations;216通りある要因配置解析を行なったということでしょう

*9:僕がいちど査読した論文では、SPSSにデータ突っ込んで有意差だった、とだけ書かれていたことがあり、ひじょうに厳しいコメントをしたことがあります。しかし著者らには(英語で)「査読者様は統計処理にお詳しいようですが、…」といった皮肉を返され、幻滅しました。