Life is Beautiful

主に進化生物学の理論のブログです。不定期更新予定。

「エントロピーと多様性の数理」書評

多様性は難しい概念である.多様性を定量化し解釈するのは,生態学の中心課題である.だがdiversity indexという用語をWeb上で検索すると,信じられぬほど多様な多様性指標が見つかる.多様性指標が多様化しているといわれるほどだ.

www.morikita.co.jp

本書は,ある状況(仮定)ではその問題が解決可能であることを力強く説得する.評者は,本書の原著 “Entropy and Diversity”(Tom Leinster著,Cambridge University Press)を無料公開と同時に読み始めた. Tomにメールを送りやりとりし,オンライン講演会も開催した.交流を通じて評者が受けた印象は,「Tomの書き方・話し方・構成の仕方の,徹頭徹尾した明確さ」であり、それは本書にも徹底的に反映されている.評者の知るなかでは未曾有な標準でわかりやすく多様性指標について書かれてある.

本書は数学的な内容を多く含むため,評者なりの生態学的な補足をおこない内容を分析する.ただしこれらはあくまで評者によるものであり,客観的分析に必ずしも基づかないし,著者・訳者の思想を反映するものでもない.また,「訳者」と「評者」の読み違いを防ぐために,属人的な印象を与える可能性を考慮しつつ,一人称を「私」とした. 書評にうつる前に本書の一貫したスローガンは「公理的特徴づけ」:

概念 Xの諸性質 P (X) から, Xを表現する量・モデル・関数を構築しよう!

である.

書評にうつる.まずは諸関数方程式,Shannonエントロピーの説明から始まる.ここで説明される内容は早速、公理的特徴づけである.この方法の絶好の適用対象が,本章の主眼であるCauchy方程式である.これは最も単純な結論を導けるので,すこし説明する. 実数 a を固定して、実数  x についての連続関数 f (x) = ax を考える.この  f が性質  P:「すべての数の組  (x, y) について,Cauchy方程式  f (x + y) = f (x) + f (y)を満たす」を持つのは,自明だ. しかし,Cauchy方程式から  f (x) = ax(ただし  a は定数)を求める,つまり連続関数 f であって性質 P を満たすものが定数係数  a の自由度を残して  f = ax のみであるのを示すには,大学数学の解析学が必要である. 一般に,性質から量を導出するのは量から性質を導出するよりも遥かに難しい.同様に,「多様性指標 Y は,性質  P (Y) をもつ」という命題は簡単に証明できても,「性質 P をもつ多様性指標は  Y だけである(ゆえに  Y を多様性指標として用いるのは妥当である)」という逆命題の証明は難しい. だから,多様性指標を学んでも,その妥当性に納得するのが難しい*1

ここまでの段階では,エントロピーと多様性の関係は不明かもしれないが,大雑把には,多様性=exp(エントロピー)である.つまり多様性とエントロピーは,数学的には行き来できる.ただし,本書でも説明があるとおり,多様性とエントロピーが等価というわけではない*2

第3章では,相対エントロピー(Kullback-Leibler情報量;KLD)の説明がなされる.生態学的にはKLDは,1つの確率分布(群集) \mathbf{r} からみた,別の群集  \mathbf{p} の相対的な非類似性を表す.ベータ多様性が複数の群集の非類似性を表していることを思い出すと,大雑把に言えば  \exp(\mathrm{KLD})がベータ多様性指標である.

第4章はShannonエントロピーの変形,いわばShannonエントロピーの一般化についてである.特に,パラメータ  q をもつRényiエントロピー生態学・遺伝学においては重要である(特に  q = 0, 1, 2).このRényiエントロピーの指数関数をとると,Hill数という多様性指標を得る (Hill 1973).つまり,Shannonエントロピーを一般化することで多様性指標が導かれる.

第5章は平均という概念の公理的特徴づけである.平均値というのは,多様性指標と同様,算術平均,幾何平均など,定義を変えたら結果が変わる量の典型である.本章では,データを適切に要約する平均値  Mという関数を公理的に特徴づける. たとえば,ある集団の各個体の形質値(正)を測定し,それを  (x, y,…, z) とリスト化する.形質値の集団平均値  M を考えると,  M は以下の性質を満たすべきである.

  1. 全ての個体が同じ形質値(つまり  x = y = … = z)である場合,  M = x である;
  2. ある個体の形質値  x を大きくすると,平均  M も大きくなる;
  3. 個体の名前の付け間違いで  x y を入れ替えても  M の値は不変である;
  4. 同じ個体数を持つグループに分割してから集計してもよい;
  5. 全個体の形質値を  c 倍すると,  M c 倍になる.

以上の性質をもつ関数として,平均を表す関数  M を,一つのパラメータに関する自由度を残して,一意的に構成できる(実は(1)は(4)かつ(5)から証明できる). 平均というのは実は集団の要約的指標として数学的に構成可能な量なのである.この考え方を用いて,7章で多様性指標を公理的に特徴づける.

第6章は種の類似度を考慮した多様性指標の定義が説明される.一般に,多様性指標には類似度の考慮が必要なことがある.これこそが,著者らによる研究,Leinster & Cobbold (2012) の鍵である. 本章後半に登場するマグニチュードという量も,著者その人が提案した数学的概念で,非常に豊かで面白い性質をもつ.私自身も刺激をうけ,この概念についての生物学的研究を始めた.「読書百遍義自ずから見る」である本章を,ぜひとも生態学的興味を持って読まれることを推奨する.

第7章は,value(価値)という概念の公理的特徴づけである.ここでのvalueとは,文字通り何らかの値であれば何でも良い.たとえば,種 ivalueとしての v_i は,種  i の形質値,個体数,生息範囲面積,ニッチ,保全対象としての価値,など  i に関連付けられている限り任意である. ここでは特に  v_i を,多様性指標への種iの貢献度と考えると良い.

本章では,生態学者にとっての最大の関心ごとである結果が示される.そのため,この章を読むだけでも,この本を手にとる意義がある.それが定理7.4.3,多様性指標としてのHill数の公理化である.その内容は,以下である(もとのアプローチはRoutledge 1979によるもので,本定理はその緻密化である): 「群集の相対頻度分布  \mathbf{p} = (p_1, …, p_N)が与えられたとき,その群集の多様性を表現している関数 D (\mathbf{p})が満たすべき以下の6つの性質を決めると,多様性関数は1つのパラメータ qに関する自由度を残して一意に定まり,それがHill数  D_q である」:

  1. 不在種(個体数ゼロ)をデータに追加しても D(p) は不変;
  2. 種の名前を入れ替えても  D (\mathbf{p}) は不変である;
  3.  D (\mathbf{p}) は、頻度分布  \mathbf{p} に関してある意味で連続的に変化する;
  4. 1種だけの群集の多様性は1である;
  5.  D (\mathbf{p}) はある意味での分解可能性をもつ; 6.すべての個体が同頻度で分布するなら多様性は種多様性である.

この6つの性質の意味を理解することで, Hill数の妥当性に納得できる.なお  D_0 は種多様性,  D_1 はShannonの多様性,  D_2 はSimpsonの多様性である.つまりHill数は一意的であるばかりか既知の多様性指標を網羅する. なお,訳を批判する意図は全くなく,valueが「価値」と訳されていたのは,少し意外であった(私の理解では,「価値」というより「値」).しかし数学において一般にvalueが価値と訳されるのが通例である可能性もある.

第8章では,相互情報量という情報理論的概念を用いて,メタ群集の多様性指標,アルファ・ベータ・ガンマ多様性,そして群集の冗長性などが定義される.この定式化は,Whittakerによるものを完全に踏襲し,Hill数とも整合的である (Whittaker 1972).古典に立ち帰ることの重要性を痛感する.

第9章では,母関数やLegendre変換などの確率的手法や,ノルムや一般化平均への公理的特徴づけが紹介されている.これら方法は,少し文脈にそぐわない印象を受けるだろう.しかし,一見すると決定論的で確率性の入り込む余地のなさそうな学問においても,確率論が便利となるケースは非常に多い.たとえば,サンプル数が大きい場合の指標の挙動を考えるのは,常套手段である.想像力をはたらかせながら読まれると良いだろう.

第10章は,情報損失についてであるが,生態学的解釈が一見難しそうな章である.基本的な考え方は以下の通りだ.生物群集の相対頻度分布pと,多かれ少なかれ種を共有する別の相対頻度分布   \mathbf{q} があるとする.分布  \mathbf{q} が分布   \mathbf{p} からの時間変化で生じたものとみなすと,  \mathbf{q} \mathbf{p} の持つ情報をいくらか失っている(あるいは,  \mathbf{p} から見ると   \mathbf{q} には「意外性」がある).その公理的特徴づけが本章の主題である.大雑把には,群集組成の時間経過で群集の多様性指標はどう変化するかという問題に相当し,これは熱力学第二法則に関連する.関連する問題については,評者の論文を参照していただきたい(Adachi, Iritani & Hamazaki, 2022; Godsoe, Murray, & Iritani, 2022).

第11, 12章はやや抽象的な数学内容が紹介され,多様性指標の数学的奥深さがみてとれる(詳しい内容は,字数の制限から割愛する). 以上が本書のあらましである.小難しい印象をもたれる方が一定以上いるのは承知である.だがそもそも生態学・多様性研究では,「100%正しい答え」のない,難しい問題に取り組むものだ.そして本書は生態学の豊富な事例を用いており,生態学的な意味も理解できるよう工夫が施されている.

本書で紹介される公理的方法は,「新しい指標を提案した」と主張する論文に対して,「適切な性質に基づいて量が構築されているか? 」という論理的分析を行う手助けにもなるだろう.多様性を研究する生態学に興味のある人たちにとって,今四半世紀を代表する必携書であるという評価で,本書評を締め括りたい.

森北出版株式会社より本書を恵贈賜ったことに,心より御礼申し上げる.黒田 真也 氏,高栁 龍 氏,中臺 亮介 氏からの本稿へのコメントに感謝する.本稿に不明瞭さがあった場合,責任は完全に私にある.

引用文献:

  • Adachi, K., Iritani, R., & Hamazaki, R. (2022). Universal constraint on nonlinear population dynamics. Commun Phys, 5.1. DOI: 10.1038/s42005-022-00912-4.
  • Faddeev, D. K. (1956). К понятию энтропии конечной вероятностной схемы. Успехи математических наук, 11:227–231.
  • Shannon, C. E. (1948). A mathematical theory of communication. Bell System Techn J, 27:379–423.
  • Godsoe, W., Murray, R., & Iritani, R. (2022). Species interactions and diversity: a unified framework using Hill numbers. Oikos, DOI: 10.1111/oik.09282.
  • Hill, M. O. (1973). Diversity and evenness: a unifying notation and its consequences. Ecology, 54.2, pp. 427–432. DOI: 10.2307/1934352.
  • Jost, L. (2006). Entropy and diversity. Oikos, 113.2, pp. 363–375. DOI: 10.1111/j. 2006.0030-1299.14714.x.
  • — (2007). Partitioning diversity into independent alpha and beta components. Ecology, 88.10, pp. 2427–2439. DOI: 10.1890/06-1736.1.
  • Leinster, T. & Cobbold, C. A. (2012). Measuring diversity: the importance of species similarity. Ecology, 93.3, pp. 477–489. DOI: 10.1890/10-2402.1.
  • Routledge, R. D. (1979). Diversity indices: Which ones are admissible? J Theor Biol, 76.4, pp. 503–515. DOI: 10.1016/0022-5193(79)90015- 8.
  • Whittaker, R. H. (1972). Evolution and measurement of species diversity. Taxon, 21.2- 3, pp. 213–251. DOI: 10.2307/1218190.

*1:この事情は,情報理論でも共通だ.エントロピーが満たす性質は単純でも,それら単純な性質からエントロピーという関数を構成可能かどうかがすぐにわからない.しかし,この公理的特徴づけこそ, Shannonの方法だった(Shannon 1948, Faddeev, 1956).つまりShannonエントロピーは公理的に特徴づけられている.Shannonエントロピーは有用なだけではなく情報量を表す概念として極めて自然な性質を有するように構築されている.

*2:Shannonエントロピーを多様性指標そのものとして用いるのは,問題がある.その例が2.4.11にある.もともとは生態学者L Jostによって考案された(Jost 2006, 2007).たとえば,大雑把に言えば種数が10から100に増えたときは「100÷10=10倍になった」とカウントするのが多様性指標で,「log (100) ÷ log (10) =2倍になった」とカウントするのがエントロピーである.どちらがより直感的にわかりやすいだろうか.