【感想】シグナル&ノイズ 天才データアナリストの「予測学」

ネイト・シルバー, 川添節子, 西内啓 / 日経BP
(41件のレビュー)

総合評価:

平均 4.1
14
12
8
0
1
  • 何かが起こった後でシグナルを見つけることは簡単だ。

    シグナルを見つけるのは比較的やさしい、ように見える。しかしそれがノイズだとしたら見分けられるのか。2012年にアメリカ大統領選の結果を完璧に当てて有名になったネイト・シルバーはpecotaと言う野球の分析ソフトの開発者でもある。

    野球は比較的統計データーを活かしやすい分野だ。マネーボールでは統計データーを使ったセイバーメトリクス対伝統的なスカウトが対立軸として使われているが実際はどうか。pecotaは2006年の有望株の4番目にレッドソックスの名二塁手ダスティン・ペドロイアを挙げたがスカウト達の評価は低かった。「身体的に恵まれていない」と。4月.158だった打率は5月には3割を超え7月にオールスター、この年の優勝に貢献して新人賞、そして翌年MVPに選ばれた。

    マネーボールのヒット以来ハーバードやエールで統計学とコンピューターを学び、普通だったら投資銀行で年収40万$で働く若者が、その1/10の年収でタンパやクリーブランドまでやって来て24時間喜んで働いてくれる。年収4万の若者はピークを超えた4000万のFA選手よりいい投資先になる。球団はFA市場で1勝当たり400万$を喜んで払う。とは言えソフトはスカウトより優秀だというような単純な話でもない。2011年シーズン、pecotaの予想したトップ選手100人はMLBで546勝を生み出した。対するベースボール・アメリカ誌の選んだ選手は630勝を生み出した。この差は86勝で3億4千万$に相当する。スカウトは統計データーも使い独自情報によるバイアスを修正することでより良い予測をすることができるのだ。

    統計学の世界でノイズをシグナルと間違えることを過剰適合と呼ぶ。福島原発はM8.4には耐えられるようにできていたがM9.1には耐えられなかった。(モデルケースとしては少し単純化しすぎだが)グーテンベルクとリヒターの法則では、地震のマグニチュードと頻度は対数をとるときれいに直線に乗る。つまりマグニチュードが1大きくなると頻度は1/10になる。しかし東北の統計ではマグニチュードどが7を超えたあたりで傾きが変わり頻度が減少するように見える。この統計は1964年間からなので大地震はそもそもデーターの絶対数が少なく大地震のリスクが少なく見積もられていた=過剰適合だったかもしれないというのが著者の見解だ。過剰適合ではなく何らかの理由で地震の頻度が減っていたとした特性適合とした場合、M9の地震は1万3千年に1回、リヒター則なら300年に1回だ。マグニチュードが1増えるとエネルギーは32倍になり地震のエネルギーと被害の大部分は数少ない大地震によるものだ。同時期の世界の統計では大地震も含めリヒター則の方が適合している。地震そのものは予測できないとしても確立はそれなりの確かさで計算できる。GPS地震予測の村井教授に対しては本職の地震学者から批判があるが、新たなシグナルを手に入れられることは間違いない。

    では具体的にどうやって予測するのかというのが後半のテーマでここでは主にベイズ確率を用いている。通常の統計ではデーターが少ないとシグナルとノイズの見分けが難しくあまり役に立たないが、ベイズ確率の考え方では事前確立(たとえヤマカンレベルでも)新たなデーターが得られるたびに修正していく。事件が起きてからシグナルを見つけるのは簡単だ。真珠湾攻撃や911を示すシグナルはたくさんあった。飛行機を使ったテロ計画はすでにあり、アルカイダの危険性やワールドトレードセンターが過去にテロの標的になったこと、そして極め付けは1ヶ月前に747機のシュミレーターを希望したイスラム原理主義者ムサウイが飛行機訓練学校の教官の通報で逮捕されている。テロの場合も地震と同様に極めて少ない大規模のテロが被害者の多くを占めている。もし911がM8級のテロだとすればM9級のテロの可能性はどう見積もるのか。1979年から20年間に起こったテロにべき乗則を当てはめると、今後10年間にNATO諸国で死者1万人を超えるテロが起こる可能性は10%、10万人なら3%、100万人なら0.6%となる。

    地震もテロも計算の元となるデータを少し変えると大きく確立が変わる。しかし、被害が大きいのはそのごく少数のM8級以上の出来事なのだ。100万人が犠牲になるテロは1600年に1回だとしても年平均にすると625人が被害に会うことになる。ブラックスワンを無視すべきではない。もしムサウイの逮捕をベイズ確率の事前確立に織り込んでいれば被害を減少させることができたかもしれない。
    続きを読む

    投稿日:2015.10.04

ブクログレビュー

"powered by"

  • kohamatk

    kohamatk

    2008年に気候学者に対して実施された調査によると、94%が気候変動が起きていることに同意しており、84%が人間の活動によるものだと思っている。しかし、地球の気温を予測するモデルの能力についてはさまざまな意見があり、気候変動が引き起こす事象をモデル化することについては疑問視する声が多い。今後50年で海面がどれだけ上昇するかを予測するモデルが有効だと思っている人は19%しかいない。続きを読む

    投稿日:2024.03.28

  • 本好きの社長

    本好きの社長

    データ解析する場合に、シグナルとノイズをどのように扱うべきか書かれた本。気象、地震、テロなどなど予測に携わる人ならば一読すべき一冊。

    投稿日:2023.11.24

  • 馬オジ

    馬オジ

    このレビューはネタバレを含みます

    リスクと不確実性
    測定ができるかどうか。
    命中率とバラツキの関係に近い。予測のバラツキが小さいことを、命中率が高いものと見誤ると大変なことになる。

    ハリネズミとキツネ
    古代ギリシャの詩人アルキロコスの一説より
    「キツネはたくさんの小さなことを知っているが、ハリネズミは大きなことを一つ知っている」
    作家、思想家などは大きく2タイプに分類される。

    ハリネズミ: 予測が下手
    専門的。分野外の意見を嫌う。
    硬直的。全部ひっくるめたアプローチに拘る。新しいデータは元のモデル(自分のバイアス)の補強のために使う。
    頑固。間違いは運のせい。環境のせい。
    秩序を求める。ノイズの中のシグナルを見つければ、単純な原則を見つけられると考える。
    自信がある。曖昧な予測はしない、意見を変えるを良しとしない。
    イデオロギー的。壮大な理論、闘争により問題が解決されると考える。

    キツネ: 予測が上手
    総合的。立場にとらわれず様々な分野に取り組む。
    柔軟。最初のアプローチが機能するかわからなければ新しい方法を探し、複数試す。
    自己批判的。自分の予測の間違いを認め、非難を受け入れる。
    複雑さを受け入れる。世界を複雑なものと見ており、多くの基本的な問題は解決不能、あるいは本質的に予測不能と考える。
    用心深い。確率的な言葉で予測を表現し、断定を避ける。
    経験的。理論より経験を重視する。

    客観的とは個人のバイアスを超えて、問題の真実を見ること。
    人間の判断にはバイアスが付きもの。客観的になるには自分の仮定が予測にどんな影響を与えるか常に自問すること。
    キツネの考え方を学ぶこと。人間には限界があると知ることが、よりよい予測に繋がる。

    予測の中の「自信の量」は正確性の目安にはならい。むしろ自信は良い結果と逆の相関を示す。
    経済に限らずどの世界でも、リスクを明言しようとする予測者の気持ちを挫けば、行く手には危険が待ち受けている。

    自己成就予言
    予言が自ら予測実現する方向に力が働くもの
     ・ファッション業界。デザイナーがある色が流行ると言えば、人はそれに反応してその色を着る。
     ・原因が難しい病気。メディアなどで広く報道されると人々が気にするようになり症例報告が増える。自閉症が典型。

    自己破壊予言
    予測が予測そのものをダメにするもの
     ・GPS。カーナビで渋滞回避のナビを出すが、皆がそれを見て従うと逆に渋滞が起きる

    レビューの続きを読む

    投稿日:2023.02.28

  • kazzu008

    kazzu008

    データアナリシスの基本を学ぶ本としてよいのではないだろうか?

    ノイズをいかに見抜き、それを排除して思考することが大切。

    投稿日:2021.08.05

  • osechies

    osechies

    「ベイズの定理を実践する一番の近道は、たくさん予想をすること」

    ベイズの定理を実践しなくても、たくさん予想することはものすごく大事。
    機会だけでなくパターンも多く。

    投稿日:2021.01.13

  • aya00226

    aya00226

    格付け会社は、透明系を高めるという理由で、格付けソフトウエアを発行者に渡した。
    ひとつひとつのデフォルト確率が5%でも、前提条件によって統合されたデフォルト率は違ってくる。
    恐怖と欲望のバランスが崩れた時、バブルが起き、崩壊する。

    ハリネズミとキツネはどちらが予測できるか。
    ハリネズミは基本原則を信じている。キツネは、原則を持たない。キツネのほうが当たるが、テレビにはハリネズミのほうがよく出る。

    「ベースボールプロスペクタス」を使って、統計的に勝負を予測できるか。
    打率はホームランより不安定。勝ち星は安定しない。

    相関関係と因果関係は別物。

    経済モデルが前提とする過去のデータは、当時の政策決定の結果でもある。
    グットハートの法則=ある変数をターゲットにすると、それは経済指標にはならない。
    経済モデルでは、インプットとアウトプットがあるが、それらは実際には区別できない。

    外挿法=現在の傾向が続くと予測すること。これが予測が外れるときの間違いの元。指数関数的に増減する者は予測できない。
    自己成就予言と自己破壊予言。自閉症は、新聞に使われる頻度と同じように患者数が伸びた。GPSで早くつくと指示されたルートにみんなが集中するため、遅くなる。

    ベイズ統計=間違いは減っていく。
    ハララボスボブブルガリス=MBAの賭けで生活している。
    自信過剰警報=絶対とか、理論を信じる、など。これはギャンブラーにとっては、致命的な欠陥になる。
    ベイズ的思考。ベイズは牧師。
    事前確率のうえで、事後確率を考える。それを統合する。ことが起きるごとに、確率を改定する。

    相関関係ではなく因果関係を示すものはけた違いに少ない。

    フィッシャーの統計=頻度主義。
    効率的市場化説は正しいか。
    ファンドマネージャーは、暴落する危険がわかっていても降りるわけにはいかない。みんなと違う行動をとるほうが自分自身のリスクが高い。運用資金が自分のものではないから。これが効率的市場化説の弱点。
    自信過剰なものが多ければ、それだけで効率的市場化説は成り立たなくなる。
    価格は正しくないが、フリーランチがない、という点では正しい。
    ミュラー・リラー錯視を避けることはできない。上がっているものは上がり続けるように見える。
    ベイズ予測では、常に反対になる危険性を考える。それに対して、みんなの予測とどうか、を決める。

    天気予報は、予測の中の成功事例。
    ベイズの定理を正確にするには、何回も予測すること。
    続きを読む

    投稿日:2020.12.28

Loading...

クーポンコード登録

登録

Reader Storeをご利用のお客様へ

ご利用ありがとうございます!

エラー(エラーコード: )

本棚に以下の作品が追加されました

追加された作品は本棚から読むことが出来ます

本棚を開くには、画面右上にある「本棚」ボタンをクリック

スマートフォンの場合

パソコンの場合

このレビューを不適切なレビューとして報告します。よろしいですか?

ご協力ありがとうございました
参考にさせていただきます。

レビューを削除してもよろしいですか?
削除すると元に戻すことはできません。