
総合評価
(26件)| 4 | ||
| 6 | ||
| 10 | ||
| 2 | ||
| 1 |
powered by ブクログ図書館で借りた。 岩波新書より、データサイエンスの"さわり"を学べる本。時事・最近の業界情報を踏まえた本になっているので、新聞の延長みたいな感覚で読むのが良いと感じた。 私はデータサイエンスの専門家ではないが、コンピュータサイエンスで修士まで学び、メーカーで業界情報は人並みに知っているつもりなので、本書の内容はある程度抑えられていると自認している。疎い方に対する説明文としては非常に有益だろう。それこそ新入社員や若手社員にお勧めできる内容だ。
0投稿日: 2024.08.25
powered by ブクログ「どうしても読んでみたい。」という場合を除きオススメはしない。本書では【データサイエンスの役割や役割とは?】についてすごく浅く、広く書かれている。そのため、内容がふわっとしている。 とはいえ、評価したい部分もある。 これからデータサイエンスについて学びたいという方は『データサイエンスのスキルの学び方』という項目には目を通しておくと役立つだろうと思う。
0投稿日: 2024.06.06
powered by ブクログデータサイエンス入門 著:竹村 彰通 岩波新書 新赤版 1713 アメリカの主な大学には統計学科が存在する。中国でも最近は同様の状況である これに対して、日本の大学には統計学部や統計学科がなかった。 日本におけるデータサイエンティスト育成には、初等中等教育における統計教育やデータサイエンス教育の充実からはじまって企業内人材の再教育まで、あらゆるレベルの教育が必要である。 ビッグデータと統計について、広く紹介する書と理解しました 気になったのは、以下です。 ■ビッグデータの時代 ・データサイエンスの3要素とは、①データ処理、②データ分析、③価値創造 である ・科学的研究のパラダイム 第1)自然を経験的に理解する研究方法 天動説 第2)理論と実験との組み合わせによる研究方法 ニュートン力学 第3)コンピュータの発展によるシミュレーションよる研究方法 第4)ビッグデータから新たな、科学的発見を見出す研究方法 データ中心科学、データ駆動型化学 ・2つの通信技術 高速な5Gと、低速なLPWA(IoT向け) ・データサイエンティストの台頭の背景 データ処理とデータ分析手法の進展 機械学習や人工知能の進展 ⇒質の良いデータが大量に得られるいることが条件 ・ビッグデータを支えるのは、大数の法則 ・フィッシャー 統計的モデル 正規分布などの確率分布をもちいて、データのばらつきや誤差を定型化する手法 データにあうパラメタを選ぶことをパラメタの推定とよび、機械学習では、モデルの学習という ・フィッシャー 実験計画法 ・日本では工業製品の品質向上に、統計的管理や、実験計画法がつかわれた ■データとは何か ・時間をおって計測されるデータ 時系列データ ・1時点でさまざまな個体に関して得られたデータ クロスセクションデータ ・表計算ソフトのシートに入力、整理できるデータ 構造化データ ・テキスト、音声、画像、動画 シートに入力できないデータ 非構造化データ ・非構造化データは、生のままでは処理できないので、元のデータから特徴のある数値を求めるか、決めなければならない ・データの中で不要と考えられ部分 ⇒ ノイズ ・データの中に含まれる傾向やパターン ⇒ シグナル ・観測しにくいデータを観測するには、コストがかかるが、そのコストに見合うだけの価値があるかが問題 ・ウェブページのA/Bテスト デザインA、デザインBの2つを用意して、デザインをランダムに表示することで、どちらがクリック率がいいかなどのテストをするもの インターネットマーケッティングの代表的手法 ・データのばらつき ⇒ ヒストグラムで表したもの分布、その曲線を密度関数、確率密度関数という ・2変数間の傾向 ⇒ 相関 ⇒ 直線であらわしたもの 回帰直線 ⇒ 回帰 ・予測を目的として統計的モデルをたてること 予測的モデリング という ・人を層別に分類することを、セグメンテーションという ・さらに個人ベースまで細分化すること パーソナライゼーションという ・不確実性を扱う理論 確率論 ⇒起こりうる結果が最初から網羅されている ⇒それぞれの結果の確率が与えられている の2条件がなり立てば有効 ・大量のデータ解析から何らかの有用な知見が得られられないかを探索することを、データマイニングという ■データに語らせる ・BIツールで、データを可視化したら、地図データと組み合わせて表示する ・データを分析する前に、整理する作業を、データクレジングという データの表記の揺れ 2021/1/1、2021年1月1日 などを書式統一すること 異常値、外れ値の排除 欠測値 データがはいっていない 項目の定義の変更 など ・データの分析、モデリング 回帰分析 判別分析 クラスタ分析 ・機械学習 目的変数がある場合を、教師あり学習といい、ない場合を、教師なし学習という ・分析ツール エクセルをはじめ、R,SAS,Python ・ビッグデータの処理 Hadoop 分散処理フレームワーク ・非構造化DB NoSQL ・深層学習 DNN 深層学習用のマイクロプロセッサ NVIDIAが出しているGPU 現在の深層機械学習をつかった、AIの中心である 目次 はじめに Ⅰ ビッグデータの時代 1 データサイエンスの登場 2 台頭するデータサイエンティスト 3 統計学の流れ 4 コンピュータとインターネットの発展 Ⅱ データとは何か 1 定義と種類 2 コストと価値 3 ばらつきと分布 4 相関と因果、回帰 5 データに基づく意思決定と不確実性 6 取り扱い上の倫理 Ⅲ データに語らせる──発見の科学へ向けたスキル 1 データサイエンスのスキルの学び方 2 データ処理と可視化 3 データの分析とモデリング 4 ビッグデータの処理と分析 5 人工知能とデータサイエンス 付録1 統計学の歴史の概要 付録2 コンピュータの歴史の概要 おわりに あとがき 参考文献 ISBN:9784004317135 出版社:岩波書店 判型:新書 ページ数:192ページ 定価:880円(本体) 発売日:2018年04月20日第1刷
14投稿日: 2024.04.03
powered by ブクログなぜ読もうと思ったのか ・データサイエンスという言葉の意味を知りたかった ・調査項目やデータ分析設計に携わる機会があり、データとは何かを改めて知りたかった ・データサイエンスの基礎は「情報学」と「統計学」+「数学」。基礎の学び方は講義を聞いたり本をじっくり読むなど伝統的なやり方が良い。基礎に関しては『統計検定2級』の受講も効果的 ・データサイエンスを情報学、統計学、価値創造の3つの要素を統合する分野と位置付ける。 感想 ・データサイエンスとは何かといった概要を知れる本。実用書ではない。 ・統計に仕事で携わっているが、統計の歴史については無知であった。統計の起源や日本での統計調査の歴史を知れ、通常の仕事に深みが出そう。
0投稿日: 2023.09.01
powered by ブクログデータサイエンス周りについてなんか話す本 それらしいこと言ってるけど面白くない。情報も必要そうなことは言ってるのだけどまとめ方が下手すぎでは。実用ではなく学問として知りたい人向け
0投稿日: 2022.08.23
powered by ブクログデータサイエンスについて今勉強していて、授業だと背景や他の分野とのつながり、体系的に学ぶためにも本を読もうと思って読んでみた。統計の基礎的な復習にもなったし、データサイエンスで何ができるかを知ることができた。データの取り方に、バイアスがないかや、そもそも正しいデータかなどデータを扱う際の注意点も知ることができた。データサイエンスが今後ビジネスなどで重要になるらしいので、データを見て分析できるような力をさらに勉強して身につけたい。
0投稿日: 2022.01.05
powered by ブクログデータの見方及びデータサイエンスの動向を理解したい人におすすめ 【概要】 ●データサイエンスとは、データサイエンティストとは何か。 ●データサイエンスの3要素は、データ処理、データ分析及び価値創造 ●データ処理には情報学、データ分析には統計学が必要 ●データには、主にテキストデータ、音声データ、画像データがある。 【感想】 ●人工知能が発展している世の中であっても、人間は統計学を学ぶ必要があると思った。 結局は、人工知能が出した答えの良し悪しを客観的に判断した上で意思決定をおこなうのは人間だからである。 人工知能に責任を負わせることの問題をどう解決するかが進まない限り、このような状況は変わることはないだろう。
0投稿日: 2021.05.16
powered by ブクログ研究主任など,データを分析しないといけないポジションの人は読んでみると良いかなと思います。 多くの学校の校内研究に欠けている視点が見えてきます。 データサイエンスの専門的な内容というより, 「データを分析するってこういうこと」 ということがわかる本です。 難解だという意見もあるようですが,僕には難しく感じませんでした。
0投稿日: 2021.03.28
powered by ブクログ文系の私には内容が難解でしたが、データがどのように私達の生活の中で使用されているのか知る事ができた。 データを集めて解析を行えば、仮説に基づくデータを得る事ができると思っていたが、その集めたデータについても考慮しなければいけないという事に気付かされた。 今後、ビックデータの活用が飛躍的に進んでいけばデータサイエンティストは必要なくなる可能性がある。 そのデータをどのように活用していくのかを考える能力がデータサイエンティストに残された道になるのかも知れない。
0投稿日: 2020.10.21
powered by ブクログ120ページあたりから急に全くついていけなくなる。 プログラムの固有名詞とプログラミング関係の用語羅列で思考停止に陥る。 まあ、そんなんだから、紙の本を求めるわけですが。
0投稿日: 2020.03.02
powered by ブクログ(データサイエンスのスキルの学び方) gacco.org 統計学1、2,3、総務省のICTスキル総合習得プログラム、 Coursera, edXで、プログラミングや統計学を含むデータサイエンス関連 統計検定の過去問(2級:大学基礎科目) オンラインコンペ kaggle.com signate.jp エクセル BIツール、Tableau R, Python(NumPy, SciPy, pandas,Matplotlib, scikit-learn, Keras, TensorFlow, Theano, Jupyter, Notebook) (著作)多変量推測統計の基礎 けだ、現代数理統計学 だ、統計(共立)
0投稿日: 2019.09.29
powered by ブクログデータサイエンスという言葉は最近良く耳にするようになりました。人々の行動に関する様々なビッグデータを解析してマーケティングなどに役立てる、というようなとらえ方をしていました。 この本では、データサイエンスがコンピュータ、インターネット分野と機械学習の発展により重要性を増していることを強調していますが、質の良いデータが提供される状態にあることが前提になっています。 米国のみならず、日本でも政府が種々データの公開をWebで行っていることを知りました。参考:(http://www.data.go.jp/?lang=japanese)。 統計学やデータサイエンスに関連して、ウェブデザインのA/Bテストや、自動車保険のテレマティクス, 平均への回帰、交絡因子、確証バイアスと後知恵バイアス、といった事項も紹介され、自分の蒙が啓かれた感じがしました。 筆者は日本における無料のオンライン口座MOOCであるgacco.orgで、統計学やデータサイエンスに関する講座にも携わっていると記しており、早速同サイトに登録してみました。 データサイエンスや統計には仕事で関わることも少なく、あまり馴染みがありませんでした、本書で現在の動きを大雑把に把握することができとても役に立ちました。
1投稿日: 2019.01.21
powered by ブクログ1.この本を一言で表すと? ・数学など専門的な話にはあまり立ち入らず、データ分析の重要性や分析手法などを一般の人にもわかりやすく説明 した本 2.よかった点を 3〜5 つ ・公表バイアス、確証バイアス、後知恵バイアスの話 →よくある話なので読み手が注意すべき所 ・エビデンスに基づく意思決定 →「学力の経済学」という本で教育に関する EB を論じていたが、この考え方は日本にもっと取り入れられるべき だと思う。 ・データ処理と可視化 →SQL とはどういうものかよくわかった。 ・現在の人工知能技術はビッグデータと表裏一体であり、データに基づく適切な意思決定を支えるという意味でのデ ータサイエンスは今後もしばらくは重要な分野(p135) →データサイエンスはあくまでも意思決定のサポートであるということが重要なこと 3.参考にならなかった所(つっこみ所) ・「人工知能」=「深層学習」という呼び方は適切ではない(p132) →違うのか? 5.全体の感想・その他 ・現代のデータサイエンスについてバランスよく書かれているのがよい
0投稿日: 2018.12.30
powered by ブクログ著者もあとがきで書いてますが本書は全然「データサイエンス」入門じゃない、数理統計の歴史と今、な本 言い訳するくらいなら引き受けなければいいし、引き受けたなら部下も学生も知り合いの学者もいるはずだからそれ相応に書けたはず 岩波新書の魅力は、タイトルで釣ることなくそのものズバリのタイトルで内容もそのものズバリ、なところなのにこれ明らかにバズった用語を借りた釣りじゃんか まずは伝統的なやり方で大学で学ぶのがよいってデータサイエンスが学べる大学なんて数えるほどしかないよ
0投稿日: 2018.11.03
powered by ブクログデータとどう向き合っていくかを考える入門書。ただし、データがこれまでどのように使われてきたのかリアルタイムで過ごしてきた世代と、smart phoneがすでに発達した世代では、読んだ時の印象が違うかもしれない。
0投稿日: 2018.09.22
powered by ブクログほんとうに入門のための本です。概括的な紹介に留まり深堀はしてないのですが、専門外のひとに概要を理解してもらうために紹介するのはありかもと思いました。
0投稿日: 2018.09.01
powered by ブクログ大雑把な概説で、なんとなく理解できたが、著者の文体や項目だての粗さもあって、読んでいてさっくり頭に入ってこない。特に統計学とデータサイエンスの扱う領域があまり明確にされていないのは致命的である。「おわりに」の最後にようやく図による整理がされているので、この図をまず参照してから読み進めるとよい。ただし、この図の項目すべてを網羅していないので、本当の意味での「入門」にすぎない。
0投稿日: 2018.07.22
powered by ブクログ総合研究大学院大学 複合科学研究科統計科学専攻 滋賀大学が日本初のデータサイエンス学部を開設 横浜市大も2018年4月に開設。 中心極限定理を実感できるゴルトンボード 深い穴は掘れない。地殻は30キロ程度、穴はせいぜい10キロ程度。それ以上は熱と圧力で掘れない。飛行機は1万メートルは普通の高さ。 データマインニング=何か有用な知見が得られないか探索すること。 オンライン講座MOOCのgacco.orgの統計学1,2 日本統計学会 統計学3 総務省統計局のデータサイエンスの3つの講座、 滋賀大学 高校生のためのデータサイエンス入門 統計検定2級と準1級。 データ解析コンペディション 英語ではkaggle.com オプトホールディング社 RSTUDIO、 プログラミング言語Python
0投稿日: 2018.07.13
powered by ブクログ本書は表題のとおり、データサイエンスの入門書である。とても読みやすい文体でそう時間をかけずに一読することができた。洋の東西を問わず膨大な知が蓄積され、体系化され、ディシプリンとして確立し、欧米の大学のケースを参照し、日本の大学にも学部・学科という教育組織が誕生し、教育内容も整理され、この本のような教科書されるまでに形成されたのが、近年のデータサイエンス分野といえる。この分野では、データ処理には情報学(コンピュータ科学)、データの分析には統計学、またデータから価値を引き出すためにはそれぞれの応用分野といった領域を理解・習熟することが求められる。この3方向からのスキル習得や知識の理解を気に留めたい。 またエビデンスに基づく意思決定という考え方は、わりと一般化している印象があるが、対する事例・エピソードに基づくそれを意識することも、一つの仕事や研究に対するアプローチ方法として有用だと思った。ただし「一部の成功例が強調され過ぎたり、失敗例が報告されないようなバイアスが生じ得る」(p.83)可能性もあるので、報告者の倫理感が必須となろう。「データに基づく判断をベースとして、人間の経験と勘に基づく判断も活かす」(p.90)ことが、実務の場での理想的な判断の仕方だと思った。
0投稿日: 2018.07.10
powered by ブクログ2017年7月22日のNHKスペシャルで「健康になりたければ病院を減らせ」とAIが提言し、著者は全く根拠がないとしているが、財政破綻して病院を減らした旭川市で根拠があると思う。
0投稿日: 2018.06.17
powered by ブクログデータを取り扱う上での倫理として、改ざんや捏造という明らかな不正だけではなく、不正かどうか難しいケースが紹介されている(p.95f) 公表バイアス(出版バイアス paubulication bias) 主張したい仮説について、仮説が成り立たない場合でもそれを支持するデータがたまたま得られることがある。実験の母数がわかれば公表バイアスの問題は生じないが、優位にならなかった研究は公表されないことが多いから、公表バイアスの大きさも評価できない。 「後知恵」のケース 事前に結論はなく、データを見てからそれに合う結論を探す場合に生じる。例えば様々な地域の児童の学習環境や家庭環境など様々な項目を調査した。地域により食習慣が異なるとすると、学力試験の結果との相関を見て、食習慣と学力には関係があると結論づけてしまうかもしれない。 これらを避けるためには、データを取る項目、評価対象にする項目、有効/無効の判断の境界を事前に決める必要がある。しかしビッグデータの解析では探索型データ解析がほとんどであり、「後知恵型」になりやすい。
0投稿日: 2018.06.16
powered by ブクログデータサイエンスの入門書。「入門」と言っても、データサイエンスを学ぶ人が最初に読むべき内容というより、データサイエンスをよく知らない人間がどのような領域を対象にどのような役割を果たしどのような手法が活用されているか見通すための概要書というべきか。著者は滋賀大学のデータサイエンス学部の立ち上げに学部長として寄与した統計学者。図表やまとめがあると分かりやすいと思うのだが、岩波新書ならではの趣きもあってそれはそれで良いのかも。アカデミアの人ならではの広い視野と知見が随所に散りばめられ、今ちょうど話題のGDPRを含めてデータの処理や分析にまつわる諸々の問題点を広く触れています。特にEBMや各種バイアスなどの実例の話はとても参考になりました。
0投稿日: 2018.06.12
powered by ブクログ本書のタイトルにある「データサイエンス」って何?と思い、読んでみました。 本書では「データサイエンスとは情報学、統計学、価値創造の3つの要素を統合する分野」として解説。 スマホを携帯して移動したり、お店で品物を購入する際にポイントカードを提示したりしながら、便利さやポイント還元などと引き換えに無意識にビッグデータの元を提供していたことに改めて気付いた。 統計学は昔からある学問だし、学校や会社で学ぶ機会もあったので、Ⅱ章「データとは何か」はとても分かりやすかった。 Ⅲ章「データに語らせる -発見の科学へ向けたスキル」はコンピュータや情報学に明るくないので、やや難解だった。 ビッグデータやAIの進歩で新しい学問分野が生まれ、時代は変わったなぁ、と実感した。
0投稿日: 2018.06.10
powered by ブクログデータサイエンスの詳細な説明というよりは、統計、インターネット、PCの説明である。 もっとデータサイエンスを中心に説明して欲しかったが、滋賀大学でのデータサイエンス学部を持っているので、多くの分野での説明となってしまった。
0投稿日: 2018.05.18
powered by ブクログデータサイエンスを情報学・統計学・価値創造の3つの要素を統合するものとして位置づけ、それぞれについて詳細に渉り言及されており、理解しやすい内容となっている。情報学の見地からはその情報量が膨大であるが為にある恣意的な意図が反映しやすい懸念を感じるし、統計学の見地からも同様であり、特に情報の把握を現在のSNSなどに頼るとフェイクニュースの様な事態も現前しており、そこに難しさを感じる。価値創造の観点からはこうした懸念事項を払拭しえればまさにビッグデータであるだけにイノベーティブな創造が可能になると思う。
0投稿日: 2018.05.03
powered by ブクログ数理統計学の大御所が書いたデータサイエンスのガイダンス書。著者のバックグラウンドを考えると統計学的な観点からの議論がメインなのだろうと思っていたら、そんなことはなく、現代のデータサイエンスについてとても広範かつバランスよく書かれていて、読んで勉強になった。また、データサイエンスに馴染みのない人にでもとっつきやすい内容になっていて、とても価値ある一冊だと思った。
0投稿日: 2018.04.21
