
確かに最強!統計学。勉強せねば。(なぜ、統計学が最強の学問なのか?)
確かに最強!統計学。勉強せねば。
【ダ・ヴィンチ電子書籍アワード2014受賞記念】知的教養書としては異例のベストセラーとなった『統計学が最強の学問である』。この力強いタイトルにひかれ、思わず本を手に取る人も多い。しかしなぜ、「統計学が最強の学問である」と言えるのだろうか。その問いに、著者である西内啓氏が「特別寄稿」で答える!さらに『統計学が最強の学問である』の一部を抜粋して収録。ダ・ヴィンチ電子書籍アワード2014受賞(教養・雑学部門)記念の特別版電子書籍です。
えっ。予想と違う!
昔、製品のユーザーアンケートを集計していた。通りいっぺんの円グラフや折れ線グラフを作って悦にいっていた。ところが、ある部下がクロス集計なるものをほどこして、違う「実態」を描きだした。予測していた様子とは違った姿である。ほう、たいしたものだと思った。
時代はビッグデータ、データマイニング
CPUの高速化、メモリーの大容量化、高速ネットワークの整備、加えてこれらITの低コスト化を背景にデータ分析の分野はその恩恵を大きく受けることになる。だがITや統計学にも詳しくないビジネスパーソンや評論家が「これからはビッグデータ、データマイニング」と舞い上がっていることに著者は違和感を覚えているようだ。本当のことを知らないと。
統計学を知らないとカモられる?
「統計リテラシーのない者がカモられる時代がやってきた。」本著の第一章である。著者の西内啓氏の筆力に驚かされる。逃げない文章はすばらしい。「カイ二乗検定」「t検定」「重回帰分析」「ロジスティック回帰」など統計学の重要分析手法をぐいぐい説明していく。さらっとしていない。全編を通じて、ビジネスパーソンに統計学の基本理解を求めている。「ビジネスパーソンよ。データサイエンティストと互角に渡り合え。」といったエールを感じる。
シンプソンのパラドックス
分析はフェアである必要がある。本著で、たとえば、A高校の男子・女子はB高校の男子・女子と比べてテスト平均点がそれぞれ5点ずつ高い。当然、全体でもA高校の平均点が高いと予測される。だが両高の男女人数が極端に違うと全体ではB高校の方が平均点が高くなる場合がある。
全体集合の単純比較は、小集合との比較結果と矛盾することがある。統計学でシンプソンのパラドックスと呼ばれるものだ。回避するには、さらに層別解析を進める必要がでてくる。だが細分していくと母数が少なくなって、誤差の範囲となり分析にならない。こういった問題について重回帰分析が威力を発揮する。「男女の違いで平均点が何点違うか」という回帰係数と「高校で何点違うか」という複数の回帰係数を同時に推定していく手法である。「もし男子が全員女子だったら」というものである。仮想的に条件をそろえた状態でフェアに比較するというものだ。著者は、「回帰分析が読めればいいかげんな言説は駆逐できる」と記している。駆逐しよう。
どこまで統計学?
本著は正真正銘ビジネス本である。統計学を通じて正面からビジネスの拡大を目指す本である。ぶれを感じない。本著が40万部以上読まれたのがわかる。読み解いてデータサイエンティストと渡り合いたくなる。
さて、冒頭の部下は、勤務しながら大学院のMBAを取得、ほどなくコンサルファームへ転職、さらに巨大上場企業の部長職へヘッドハンティング。今は起業して社長さんに就任。統計学的にどの程度の確率でそのようなキャリアがつめるのであろうか?うーん。ひとつ言えるのは決して誤差の範囲ではない。(ふじ たかし)


