1. HOME
  2. ブログ
  3. 分析
  4. それって本当に効果あるの?相関関係と因果関係の違いについて

BLOG

ブログ

分析

それって本当に効果あるの?相関関係と因果関係の違いについて

こんな場面に遭遇したことはないだろうか。

専門家が最もらしいことを言う、「たしかにそうだ…でもそれって本当に効果あるの?」

営業マンが確からしいデータを出してメリットを言う、「いいかもしれない…でもそれって本当に効果あるの?」

担当者がデータを見てこうすれば売上が上がると言う、「たしかにそうかもしれない…でもそれって本当に効果あるの?」

データを見て効果がありそうだと感じ実行するものの、結果は散々。

このようなケースでは、因果関係がないものをあたかも因果関係があると思い込んでいる、という状況がよく起こり得ます。近年ビジネスでも注目されている因果推論という、原因とそれによって生じる結果との関係を統計的に推定し因果関係を正しく把握するための方法論。2021年に米経済学者がこの因果推論を用いた各政策の効果測定がノーベル経済学賞を受賞したことも、注目されている理由の1つかもしれません。

今回は、そんな因果推論の初歩の初歩、相関関係と因果関係について、科学的根拠(エビデンス)のレベルについて紹介していきます。

相関関係と因果関係

相関関係と因果関係について、

相関関係はAとBの2つに何らかの関係性があることを指します。

因果関係はAが原因となりBという結果となる関係を指します。AだからBという関係性です。

この相関関係と因果関係は一見似ているように見えて全く違います。相関関係には必ずしも因果関係があるとは限りませんが、因果関係には少なくとも相関関係はあります。図にすると下のようなイメージです。

もう少し詳しく見てみましょう。

因果関係は図で表すと、下の図のように必ずAだからBという関係です。逆に言うとAでなければBは起こりません。

因果関係ではない相関関係は一般的に疑似相関と呼ばれ、大きく3つ存在します。

  • ただの偶然
  • 交絡因子(AとB両方に影響を与える因子)の存在
  • 逆の因果関係の存在

この「ただの偶然」である関係の例を集めたサイトがあります。spurious correlationsというサイトで、有名なものだと「ニコラスケイジの映画出演数とプールでの溺死人数」などがあります。見てみると意外と面白いものがあったりします。ちょっとした話のネタにいいかもしれません。

相関関係の中でも、AだからBという因果関係を証明しなければなりません。この因果関係を推定する方法論が因果推論です。

実際に因果関係であると結論づけるための基準については、因果関係判定のためのガイドラインとして示されています。

1.相関関係の強さAの生起とBの生起の間に強い相関関係がある。
2.相関関係の一致性相関関係の大きさはさまざまな状況で、対象や実証に利用する手法が違っても一致している。
3.相関関係の特異性Bと「A以外に原因として想定される変数」の相関は高くない。
また、Aと「B以外の結果変数」の相関も高くない。
4.時間的な先行性AはBに時間的に先行する。
5.量・反応関係の成立原因となる変数Aの値が大きくなると、単調に結果となる変数Bの値も大きくなる。
6.妥当性AがBの原因となっているという因果関係が生物学的に(または各分野の知見にもとづいて)もっともらしい。
7.先行知見との整合性これまでの先行研究や知見と首尾一貫している。
8.実験による知見動物実験などでの実験研究による証拠がある。
9.他の知見との類似性すでに確立している別の因果関係と類似した関係・構造を有している。
因果関係判定のガイドライン(Hill, 1965) IWANAMI DATA SCIENCE.vol3(2016)より作成

ガイドラインから見ても、因果関係には相関関係があることが重要なのがわかると同時に、相関関係だけでは十分ではないこともわかります。

科学的根拠(エビデンス)レベルについて

因果関係を示唆する根拠については、段階が存在します。科学的根拠は、エビデンスとも言われ医療業界では当たり前に使われる言葉ですが、一般ではあまり馴染みがないかもしれません。

医療業界でよく用いられるエビデンスレベルについては下図。

メタアナリシスとは、複数のランダム化比較試験を統合したものです。

ランダム化比較試験は、新薬の治験のようにグループをランダムに分け一方には新薬をもう一方にはプラセボ薬(薬効成分の入っていないただの乳糖)を服用し検証するような方法です。

観察研究は、コホート(前向き)研究、ケースコントロール(後ろ向き)研究があり、例えばコホート研究は40代男性に喫煙習慣があるかアンケートを取り、その後10年間においてなんらかのガンが発生したか調査する、ケースコントロール研究はガン患者と健常者を無作為に選び過去に喫煙習慣があったかを調査するような方法です。

症例報告は、ある患者さんの治療経過や結果をまとめて報告したものです。

専門家の意見は、この中では一番低いエビデンスレベルです。健康食品などでよくある専門家の意見は心理的やマーケティング的には効果は大きいのかもしれませんが、実はエビデンスとしてはあまり信頼できるものではありません。

これをビジネスで当てはめると、どうなるでしょう。

「原因と結果」の経済学(中室牧子,津川友介, 2017)より作成

メタアナリシスについては、同じく複数のランダム化比較試験を統合したもの。

ランダム化比較試験は、ビジネスで真っ先に思い浮かぶのはA/Bテストです。ランダムに分けたグループ同士が本当に同質かという点で若干の疑問は残るものの、A/Bテストがマーケティングで頻繁に活用されるのもわかります。ただし、ビジネスにおいては必ずしもA/Bテストができる状況だとも限りません。むしろできない状況のほうが多いではないかと思います。

自然実験と類似実験は、「実験のような状況」を利用する方法です。差の差分法や、回帰不連続デザイン、傾向スコアマッチングなどが該当します。

回帰分析は、結果となる数値と要因となる数値の関係を明らかにする統計手法です。手元にデータがあれば分析実施することができ、交絡因子のデータも明らかであれば交絡因子の影響も取り除くことが可能です。

最後に専門家の意見です。

ピラミッドの上にいくほど根拠が強く、因果関係を正しく証明できる手法で導き出したものです。逆に下にいくほど根拠は弱く因果関係と相関関係を誤認してしまう可能性がある手法で導き出したものです。

基本的な因果関係の証明の仕方は、「もしも、Aではなかった時Bはどうなるか」を考えることです。Aでなかった時とAだった時、この2つのBの結果を比較することになります。この「もしもAではなかった時」のことを反事実と呼びます。

反事実と言うと、ドラえもんのもしもボックスがまさにそれだなと思うことがあります。もしもこんなことがあったら世界はどうなるかを体験するドラえもんのひみつ道具。

でも、現実にはもしもボックスもなければ、同時に違う未来をみることもできません。そのため、ランダム化比較試験のようにAとAでない状況を作る、もしくはAでない状況をもっともらしいデータで埋めることによって因果関係を証明します。

差の差分法や回帰不連続デザイン、傾向スコアマッチング、回帰分析などの手法については、追々機会があれば別の記事でまとめてみようかと思います。

まとめ

今回は分析の初歩、因果関係と相関関係、エビデンスレベルについてまとめました。

ビジネスの意思決定において、因果関係があるのか因果関係がないのかは、とても重要な要素です。かといって、データ分析は万能ではないと思っています。

ただ、どこでもあるようなSWOT分析(強み、弱み、機会、脅威)に当てはめると強みが~~で機会が~~にある、だからこれをやるべきだ!というような、主観に基づく定性的な情報から出た思い付きに比べると、定量データでもって因果関係がどうか考えるという点においても、間違いなくマッチベターな手法の1つであると言えます。

関連記事