新刊・予約
ランキング
セール
特集・キャンペーン
ジャンル一覧
詳細検索
0
加藤 エルテス 聡志 / ダイヤモンド社 (12件のレビュー)
レビューを書く
総合評価:
"powered by"
monta928
事例などがよく整理されており、内容も分かりやすいものの、最先端の分野だけに陳腐化も早い。 残念ながら、やや内容が古いためその点で減点。
投稿日:2021.10.16
かえみー
データサイエンティストって何か、が明確で経営コンサルタント、戦略コンサルタントとの違いを考えさせられた
投稿日:2021.03.14
よはん
データサイエンスについて、観点を分けて上手くまとめられていた。観点がしっかりしてると、腹落ち感も変わってくる。
投稿日:2019.11.03
ryokucha334
■機械脳、データサイエンス、機械学習の用語の関係は? 機械脳は社会への広範な影響の総称、データサイエンスは機械脳を実現するための技術全般、機械学習は1要素技術。 ※機械学習以外にも、データサイエンスの…要素技術はたくさんあるということ。 ■データGM, データサイエンティスト、データエンジニアの役割を知る。 [前提] ビジネス、統計、プログラミング、リーダーシップのすべてを兼ね備えている人を採用することは非現実的である。段取りや主要な意思決定をすべて「明文化して共有」し、的確な役割分担のもとにチームを作るほうが現実的かつスケール可能な「科学的なチームアプローチ」である。一人当たりに期待する「職能」を細分化し、メンバーの「共通言語」を揃えることで、全体が一つのチームになって機能することを志向すべきである(図表6-5, 6-8)。 ※共通言語:データサイエンスの基本概念、ABCDEフレームワーク ☆しかしながら、両方できる人材の希少価値は高い。そこに近づくためには、自分とは違うスキルセットを持ったメンバーと団結して、何でもするように必死に努力すること。考えたり教えてもらったりなど。 [データGM] ビジネス上のミッション(顧客獲得や利益率改善)に焦点を当てながら、サイエンス人材、システム人材とコミュニケーションを取り、プロジェクト全体を取り仕切る人材。営業部や経営陣とのコミュニケーションのハブとなる(プロジェクトの失敗事例の多くは、コミュニケーションのミスにある)。MBA保有、コンサルティングファーム在籍経験、顧客と直接接点のあるビジネスサイドでの5年以上の経験などの経歴が求められる。 [データサイエンティスト] 統計や機械学習についての科学的な考え方、ツール適用における理論的側面をリードする人材。統計を多用する領域の学位、研究機関での専門職の経験、ビッグデータの業務経験などの経歴が求められる。複雑な事象を分かりやすく説明できるように工夫することで、社内のデータリテラシーの底上げに貢献することができる。 [データエンジニア] コーディング業務・システム実装業務を取り仕切り、ビジネス要件・数理モデル上の要件を、プログラムやサーバに具現化させる責任者。SE、プログラマ、インフラエンジニアの業務経験が求められ、プログラミング能力やサーバの知識が必須である。 ☆仕様が完全に決まってからプロジェクトがその通りに進行することは滅多にないため、業務理解とデータ定義についての詳しい知識に基づき、拡張性を考慮する必要がある。よって、業務知識のヒアリングによるアップデートとシステムへの反映が、データエンジニアにとって「決定的に」大切な職務となる。 ■データサイエンスを知らなかった人は、これからどうすれば活躍できるのか。 ・環境が変わり、活躍するためのスキルセットが変わったことをまず認識する。昔は読み書きそろばん、今はインターネット、今後はデータサイエンスが必須のスキルとなる。新時代の必須スキルへの投資が必要であると認識し、勉強する。 ・データGMは、機械脳の基本概念を押さえることで、貢献が可能となる。 ・データエンジニアの必須教養は、インフラ環境、データベース(ETL: Extract, Transform, Loadを含む)、言語(R, Python)である。 ・普通の人は、たとえ難しそうに見えても、新しい技術を学び、使う側に回るのが良い。これにより、想像力や創造力が要求される業務に時間を使えるようになる。 ■ABCDEフレームワークとは? ・思考整理の手段として有用であり、チームで共有することで議論する際の共通言語になる。 ・AからEを一気通貫してデザインすること。決まっていない項目は空欄に仮置きして進めればよい。 [Aim(目的)] 意思決定でチームが右往左往しないように、目的を書き出して、はっきりとした形でチームで共有すること。 ・手段(○○することを通して)(目標設定として、試行錯誤の範囲や領域を示せればよい) ・対象(○○が) ・数値基準(○○となることを) ・期日(○○までに達成する) ・制約条件(ただし○○とする) ☆「目的設定はSMARTに」 ・Specific(具体的な目的か?) ・Measurable(測定可能な目的か?) ・Achievable(達成可能な目的か?) ・Relevant(意味のある目的か?) ・Time Bound(期限付きの目的か?) [Brain(機械脳の種類)] アルゴリズムの選定根拠をブラックボックス化させないことが重要。ポイントは、B以外のすべてをはっきりさせて、Bへの要件を明確化すること、および、モデルの選定基準を可視化してデータサイエンティストに説明を求めること。 モデル選びの定跡(図表5-4):まずは両立モデルにトライしてみて、何が問題かを確認してみるのが良い。モデル選びにはトレードオフがあるので、チームで議論すること。 ☆モデルの選定基準:AとI/C/Sはトレードオフの関係にある。 ・Accuracy(精度) ・Interpretation(解釈容易性) ・Coding/Construction(プログラミング作業、実装):ライブラリの豊富さ、必要データ量など ・Speed(速度) [Coding/Construction] 落とし穴①:プログラミング言語…既存モデルやAPIがあるのにゼロから作ってしまう。動くシステムが早く作れることを考えると、既存モデルやAPIの組み合わせとチューニングのレベルを高める方が長期的に見て良い。また、運用時の言語があらかじめ分かっていれば、初めからその言語で開発するべき。 落とし穴②:クラウドサーバ・サービス利用…自前主義にこだわりすぎないこと。法令違反になる範囲は意外と狭い。 落とし穴③:チームマネジメント…AからEをしっかり共有し、データエンジニアへのミス・コミュニケーションが起きないようにすること。 [Data(データ選定と整備)] いかに優れたモデルを使っても、元のデータの選定と準備加工が悪ければ、良い結果は出ない。今あるデータから何ができるかを発想するのはよくない。「作り出したいデータ」を得るには「その素材となるデータ」としてどういうものが必要かという逆算思考が、生産性の高いアプローチとなる。 ☆データ選びの基準 ・Relevancy(関連性) ・Volume(データ量):一般的に、推定したいカテゴリごとに少なくとも百から数百は必要。 ・Granularity(粒度):測定密度を高めるか、データを組み合わせるかのいずれかしかない。 ・Cost Effectiveness(費用対効果): データの取得と整備の費用。欠損値や外れ値を整える作業=データクリーニングが分析時間の8割を占める。 [Execution(実行)] データGM, データサイエンティスト、データエンジニアが協力して作業する際、認識齟齬が生じないよう、また、肝となる意思決定がブラックブックスにならないよう、「徹底的に言語化して共有」、かつ、その内容を更新し続けること。 AimをSMARTに書き出す→キーパーソンに意見と協力を求める→BからEのすべてを言語化 ☆「わざわざ書かなくても、全員分かっているので問題ない」とタカをくくっていても、実際にその通りだった例はない。必ず文章化による発見がある。 ■機械脳の実用化例(可視化、分類、予測)を知る。 [可視化] ・ホンダのインターナビ:走行データを地図に重畳→危険個所の特定を実現 ・コマツのコムトラック:重機の位置と状態を把握→盗難防止を実現 ・象印のi-Pot:電気ポットの利用状況から、離れた家族の安否確認を実現 ・日立のビジネス顕微鏡:加速度・赤外線・音声センサーを可視化・分析→組織パフォーマンス向上を実現 ☆示唆としては、ある事象を可視化するために、どのようなデータに着眼するかというデータ選びのセンスが必要。対象自体の測定が難しくても、何らかの物理量として可視化できる場合がある。 [分類] 膨大なデータから、探しているものがあるかどうかを判断すること。 ・ペイパルの不正アクセス検出:検出条件をすべて人間が書き出すのは無理であり、学習により自己修正するという機械学習の特徴が必要である。 ・富士フィルムやアンセムの癌の画像診断支援:多くの情報源を確認するための負荷やヒューマンエラーという問題に対し、機械学習を導入した。学習データ量の増加によって、さらなる精度向上が望める。 ☆医療分野における人工知能の活用は、人間の判断を支援する形で採用されることが一般的である。データサイエンスとして技術的に自動化できたとしても、法制度上の問題などから、人が不在となるのはまだ先になる。 [予測] ・エパゴギクス(映画の興行収入をニューラルネットワークで予測):専門家が脚本を読んで作成する、数多くの要素から成る(=影響因子が多数)評価である「脚本スコア」を入力として(脚本そのものではない)、興行収入の予測を出力する。実際の興行収入データを用いて学習させる「教師あり学習」を採用している。2005年頃からハリウッドで実用化されており、不可欠な存在となっている。 ・アマゾンの購入予測とレコメンド:ビジネスモデルを考慮してデータサイエンスの精度を上げる好事例。まったく関係ないアイテムを紛れ込ませて、クリックすれば興味ありと判断する。クリックミスや会社備品の購入などのノイズはユーザ自身が削除できるようにする。レビューコメントからテキストマイニングで商品タグを作り、そのタグをもとにレコメンドする。 ・HPでは、退職リスクの数値化と予測により、事前対策を打てるようになった。 ・クライメート・コーポレーション(気象予測に基づく自動天候保険):アルゴリズムもデータも気象予測としては一般的なもの。自動損害算出による証拠提出の不要化というビジネスモデルが新しい。世界中の個々の農家の地点の気象予測が必要であるため、膨大な計算量が必要となる。Hadoopによる分散処理を利用した。 ・自動車保険の“Pay How You Drive”:データサイズは小さく、リアルタイム処理は不要である代わりに、予測精度の向上が求められる。続きを読む
投稿日:2019.02.12
fleefloatingplanet
データサイエンティストはどういう仕事をするのか、が書かれた本。技術的なことが知りたかったので少し物足りなかった。
投稿日:2018.11.24
nyonboo48
このレビューはネタバレを含みます
「はじめに」にもあるように、実際にビジネスの現場で使える情報方向に寄った本。スタープレイヤーが活躍する時代から、チームで協働していく時代になりつつあるれど、機械脳の出現によって、それが更に加速する。データさえあればあとは機械脳がなんとかしてくれるのではなく、何をやりたいのかを決めたあと実現するのに適したデータを取るという方向が正しい方向。そのためには、使うデータと使わないデータの選別(つまりデータを捨てること)が必要になる。
投稿日:2018.11.07
ポイントが追加されました。ポイント明細ページからご確認いただけます。
クーポンコードの形式が正しくありません。半角英数12桁で入力してください。
エラー(エラーコード: )
本棚を開くには、画面右上にある「本棚」ボタンをクリック
スマートフォンの場合
パソコンの場合
このレビューを不適切なレビューとして報告します。よろしいですか?
ご協力ありがとうございました 参考にさせていただきます。
レビューを削除してもよろしいですか? 削除すると元に戻すことはできません。