toriR blog

論文紹介:鳥類の生息地適合性を予測するための存在・不在モデル化と存在のみのモデル化手法(Brotons2004)

ある鳥の生息適合性検証のために論文を読んでいます。その備忘録です。不在データがある場合はENFAよりGLMが良いと著者は主張しています。この記事はChatGPT-4oを用いたので記事として価値はないのですが、日本語で読みたいというどなたかのお役に立てれば幸いです。
GLM vs ENFA

原題:Presence-absence versus presence-only modelling methods for predicting bird habitat suitability

概要:

  • この論文では、鳥類の生息地適合性を予測するためのモデルを2つの手法で比較しています。1つは「存在データのみ」を使用する生態的ニッチ要因分析(ENFA)、もう1つは「存在と不在データの両方」を使用する一般化線形モデル(GLM)です。カタルーニャ地方の繁殖鳥類アトラスデータを用いて、これらの手法がどのように異なるかを分析しました。
  • 結果として、GLMによる予測はENFAよりも正確であることがわかりました。特に、鳥類が利用可能な生息地を適切に使っている場合、不在データがモデルの精度を向上させるために有効であることが示されました。また、生態的な要求が狭い種(ニッチが限られている種)の方が、より正確にモデル化できる傾向がありました。一方、広範囲に生息する種や多様な環境に適応できる種は、不在データを使用したモデルの方がより効果的であることがわかりました。
  • 結論として、鳥の生態的特性を考慮することがモデルの精度を左右し、広く分布する種の分布予測はどの手法でも難しいことが示されています。不在データが利用可能な場合、これを活用する方法が一般的に推奨されるべきだという結果です。

諸元:

  • 種の分布をマッピングすることは、生態学や保全の重要な課題です。
  • 大規模な分布マッピングには、アトラス分布フレームワークがよく採用されます。
  • 大規模な博物館のコレクションデータも、代替手法として使われることがあります。
  • アトラスは均等なグリッドセルサイズを使用し、標準化されたサンプリング方法論に基づいており、種の分布を分析する強力なツールです。
  • ただし、多くのアトラスは種の存在情報のみを提供し、種の個体数や特定場所の適合性については十分な定量的データを提供していません。
  • 生息地適合性モデルやニッチベースのモデル技術では、種の位置データや環境要因を使用して、適合する生息地の分布を予測します。
  • 最近の技術の進展により、種の分布マッピングが大規模かつ低コストで行えるようになりました。
  • 種の絶滅リスクは、低い適合性のエリアや個体数が少ないエリアで高くなる可能性があり、保全計画に役立つ情報が提供されています。
  • 種の生息地適合性モデルは、将来の土地利用や気候変動の影響評価にも使われています。
  • モデルには、良質な存在/不在データが必要な手法(GLMやANNなど)と、存在データのみを必要とする手法(ENFAなど)があります。
  • 研究では、仮想種を使ったモデル比較で、ENFAは全ての適合する生息地を占有していない場合に優れた予測を示し、GLMは最適な生息地をすべて利用している場合により正確でした。
  • 種の生態的特性や出現頻度がモデルの精度にどのように影響するかを調べることが重要です。

方法:

鳥類データ:

  • 本研究では、カタルーニャ繁殖鳥類アトラス(CBBA)のデータを使用。
  • CBBAはカタルーニャ地方(北東イベリア半島、31,000 km²)を対象とした大規模な調査。
  • 研究対象地域内で1×1 kmのセル1550個(地域全体の約6%)を選定し、標準化された調査を実施。
  • セルは、10×10 kmのUTMグリッドセル内で主な生息地タイプをカバーするように、ボランティアにより層別選定。
  • 各セルで、1999年から2001年の繁殖期に2回(一回あたり1時間)の訪問調査を実施。
  • 3月から4月と5月から6月の2回の訪問で、異なる種の繁殖時期に対応。
  • 出現回数が15回以上の種を対象とし、出現率が異なる種をサブセットとして選定。
  • 最終的に、地中海地域の生息地選好パターンに基づいて、30種の森林鳥類をモデル化。
  • 種の存在データは信頼できると仮定されましたが、不在データについてはそうではありません。
  • 種が検出されないことは、そのセルに存在しないことを保証するものではありません。
  • 存在は、主に種の個体数と検出可能性に影響される確率的な機能です。
  • 本研究では、種の検出可能性が生息地間で一定であると仮定し、不在は信頼できるか、種の個体数が少ない生息地に関連していると考えました。
  • しかし、不在が種と環境の負の関係によるものであるという仮定は、必ずしも有効ではありません。
  • 生息地の動態、分散率、履歴などの要因により、適切な生息地でも種が存在しない場合があります。
  • そのようなイベントの影響が大きく、種が環境と均衡していない場合、不在データはどの方法でもモデル構築に影響を与える可能性があります。
  • 反対に、不在が低適合性の生息地に関連している場合、不在データはモデルの精度向上に寄与するはずです。

環境データ:

  • 環境変数(ENV)は、地理情報システム(GIS)のレイヤーから生成されました。
  • 生息地の構成は、カタルーニャ地図作成研究所(ICC)および農業省(DARP)が作成した土地利用レイヤーを使用して分析されました。
  • 簡略化と分類のプロセスを経た後、土地利用マップは50mピクセル解像度にリサンプリングされ、各土地利用カテゴリに対してブールマップに変換されました。
  • 気候変数(温度、降水量、日射量)は、カタルーニャデジタルアトラス(CDA)から取得され、地形データはICCによって作成されたデジタル標高モデル(DEM)から得られました。
  • 各セルの値を得るために、セル内のすべての200mピクセルの平均値を計算しました。
  • さらに、地理的な分布パターンを検出するために、緯度・経度の平均値と海からの平均距離という3つの変数も使用しました。

統計モデル:

  • 種の存在/不在データに基づく予測モデルを構築するため、さまざまな方法が考案されています。
  • その中でも、一般化線形モデル(GLM)は多くの独立した状況で広くテストされ、堅牢であることが証明されています。
  • 二項データ(種の存在/不在)を解析するために、二項誤差分布を用いた一般化線形回帰技術(ロジスティック回帰、GLM)を適用しました。
  • モデル構築において、環境予測変数が0.9を超える相関を示さないように、すべての線形および二次項を予測変数として含めました。
  • 最も簡潔なモデルを選択するため、自動的なステップワイズモデル選択手法を使用し、切片のみを含むヌルモデルから開始しました。
  • 「step.glm」関数を使用して、新しい項を追加し、フィットの改善を調べると同時に、適合度に大きな影響を与えない項を削除しました。
  • 二次項は、線形項よりも適合度を改善する場合のみ含めました。
  • 最終モデルの選択には、赤池情報量規準(AIC)を使用しました。
  • GLMは予測的な目標で使用され、特定の生態学的項の有意性よりも予測精度が重要視されました。

在データのみを要求する方法:

  • 種の存在データのみを使用した種分布予測のために、さまざまな方法が提案されています。
  • これらの方法は、種が存在する点の「環境エンベロープ」を特定し、それを元に他の地域に外挿します。
  • 本研究では、BIOMAPPERパッケージに含まれる生態的ニッチ要因分析(ENFA)を使用しました。
  • ENFAは、種の生態空間での分布とすべてのセルの「グローバル分布」を比較し、種が占めるニッチを定量化します。
  • ENFAは種の「周縁性」(種の平均とグローバル平均の違い)と「環境耐性」(種の分散とグローバル分散の比較)に焦点を当てています。
  • 周縁性は種のニッチ位置を示し、耐性は種の専門性に反比例し、ニッチの幅に関連します。
  • ENFAは、直交回転による因子分析を用いて、予測変数を一連の相関のない因子に変換し、種の周縁性を第1軸に集約し、次の軸で耐性を最小化します。
  • ENFA分析から生息地適合性マップを作成するために、BIOMAPPERにはさまざまなアルゴリズムが用意されています。
  • 環境変数の正規性を高めるために、Box-Cox変換を使用しました。
  • 周縁的な種はほとんどの条件で耐性が低く、種の周縁性と耐性は高度に相関していました(r=−0.76, p<0.0001)。
  • また、種の周縁性と出現頻度も有意に相関していました(r=−0.68, p<0.0001)。
  • 独立した評価を可能にするため、主成分分析を実施し、周縁性と耐性、出現頻度を変数として使用しました。
  • 結果として、周縁性成分と出現頻度成分の2つの独立した成分を得ました。

生息地適合性モデルの評価

  • 予測モデルの精度を評価するために、データを2つのセットに分割し、70%をキャリブレーション用、30%を評価用にランダムに割り当てました。
  • キャリブレーションデータセットを使って生息地モデルを作成し、評価データセットでその精度を評価しました。
  • 存在データのみを使用したモデルの評価は困難であり、種の存在するエリアと背景環境を比較する方法が提案されています。
  • ENFAとGLMモデルの精度を、存在および不在データを用いて評価しました。
  • 予測確率が0.5以上なら出現と一致、0.5未満なら不在と一致するモデルが成功とみなされますが、これは生態学的根拠がありません。
  • より強力な方法として、受信者動作特性(ROC)プロットを使用し、0から1までのさまざまなカットオフポイントでモデルの成功率を評価しました。
  • ROC曲線下の面積(AUC)は、モデルの適合性を示し、0.5はランダム、1は完全な適合を示します。
  • AUCと標準誤差はS-Plusソフトウェアを用いて計算されました。

モデリング手法間の精度の比較

  • GLM(一般化線形モデル)とENFA(生態的ニッチ要因分析)のモデル手法、およびデータセット(キャリブレーション vs 評価)の全体的な差異を、繰り返し測定ANOVAを用いて検証しました。
  • 各種に応じた設計で、モデリング手法とデータセットを被験者内要因として使用しました。
  • 繰り返し測定ANCOVAを使用し、モデリング手法とデータセット間の生息地モデルの精度の違いを評価しました。
  • ANCOVAのデザインには、ニッチ特性と種の出現率を要約する2つの主成分(周縁性成分と出現率成分)を加えました。
  • これにより、モデルの精度が手法やデータセットに応じてどのように変動するかを評価しました。

結論:

モデルの精度

  • ROC法による全体的なモデル精度は、すべてのケースでランダム予測よりも優れていました。
  • AUC値はGLMモデルがENFAモデルよりも高く、キャリブレーションデータセットでの評価時に特に高い値を示しました。
  • キャリブレーションデータと評価データセット間の予測精度の変化は、GLMの方がENFAよりも大きく、独立したデータセットに適用した際の精度低下がGLMでより顕著でした。
  • GLMとENFAで予測された種の空間分布には大きな違いがあり、ENFAはGLMで推定された分布の境界部分を特に過大評価する傾向が見られました。
  • 一部のケースでは、GLMで高い出現確率が推定された領域がENFAでは見逃されることがありました。

種のニッチ特性と出現率がモデル性能に与える影響

  • 種の生態空間における分布がモデルの精度に大きく影響し、周縁的な種のAUC(モデル精度指標)は一般的に高かった。
  • 周縁的な種がより正確にモデル化されたことは、使用した2つの手法とデータセットの間で一致しており、統計的な相互作用が見られなかったため、この効果は手法に関係なく安定していると考えられる。
  • 出現率(prevalence)の要素は、全体的にモデル性能に一貫した影響を与えなかった。
  • しかし、評価データセットにおいては、出現率がGLMモデルのAUC値に正の影響を与えたが、ENFAモデルには影響を与えなかった。
  • この結果、出現率と予測精度の関係は、評価データセットでキャリブレーションデータセットよりも強い正の相関を示した。

議論:

  • GLM(存在・不在データを使用したモデル)は、ENFA(存在データのみ使用)よりも森林種の分布を高い精度で予測しました。
  • 存在データのみを使用すると、低密度生息地が適合性の高い生息地と誤分類される可能性があり、GLMでは不在データが適合性の低いエリアを特定するのに役立ちます。
  • 不在データがない場合、背景データからランダムに擬似不在を生成する方法が提案されていますが、広範囲に生息する種や存在データが少ない場合には偏りが生じる可能性があります。
  • 生息地モデリングでは、種が不在の場所を特定することが重要ですが、生態的メカニズムを特定する目的の場合には不在データの評価が無意味になる場合もあります。
  • ENFAは、存在データのみを使用して潜在的な分布を予測する際に有効ですが、保全対象種の分布を過大評価する可能性があります。
  • 大規模な分布モデリングでは、多くの種が環境と均衡しているため、不在データが低適合性の生息地を反映し、モデルの精度を向上させる可能性があります。
  • ENFAは、存在データのみで行われるモデリングに適しており、特に不在データが入手できない場合に有効ですが、存在・不在データを使用する手法が優先されるべきです。

種のニッチ特性、出現率、およびモデル精度

  • 生態的ニッチの位置(周縁性)は、GLMおよびENFAで開発されたモデルの予測精度に重要な役割を果たしており、特に一般的な環境条件からあまり逸脱しない鳥類の方が、周縁的な種よりもモデル化が難しかった。
  • 一般的な種は生息地の違いが大きく、そのため生態的な幅を過大評価し、モデル精度が低下することが示されています。
  • 周縁的な種に対しては、GLMとENFAの両方の手法が同等に良好なパフォーマンスを示し、低品質なデータを使用しても有望なモデルの開発が可能です。
  • 出現率がモデル精度に与える影響は多くの研究で指摘されており、出現率が高いほど偽陽性が増加し、偽陰性が減少することが報告されています。
  • 一部の研究では、ROC法で評価されたモデル精度は出現率に依存しないとされていますが、これは他の研究結果とは一致しません。
  • 出現率は、種の生態的特性やサンプリングの偏りによりモデル精度に影響を与える可能性があります。
  • 出現率の影響は、存在・不在データを使用するモデルでは強く、追加の存在データが精度向上に貢献しますが、存在データのみのモデルでは同様の利益は得られません。
  • 将来の研究では、サンプルサイズと生態学の関係がモデル精度にどのように影響を与えるかを評価する必要があります。

独自の備忘録

鳥類の生息分布を分析するモデルの比較:ENFA vs GLM

モデル名 生態的ニッチ要因分析(ENFA) 一般化線形モデル(GLM)
使用データ 存在データのみ 存在データおよび不在データ
利点 - 不在データがない場合にも適用可能
- 特に希少種やデータが限られた種に有効
- 存在と不在データを使用するため予測精度が高い
- 確率論的に生息適合性を評価
デメリット - 不在データがないため予測精度が低下する場合がある
- すべての生息地を占有しない種には不向き
- 不在データが正確でない場合、モデル精度が低下する可能性がある
- データ量が必要
適用範囲 - データが少なくても広範な地域に適用可能
- 希少種や発見が困難な種に有効
- 広範な種分布モデルに適用可能
- 環境が安定している場合に効果的
限界 - モデルの精度が低くなることがあり、過大評価のリスクがある - 存在/不在データの収集が困難な場合や、不均衡なデータセットでは不適切になる場合がある
参考文献 Presence‐absence vs presence‐only modelling methods Presence‐absence vs presence‐only modelling methods

以上です

Article Info

created: 2024-10-08 09:44:35
modified: 2025-02-07 18:21:27
views: 244
keywords: 一般化線型モデル GKM 生態的ニッチ要因分析 ENFA

Articles