画像認識

作品情報

※この商品はタブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字だけを拡大することや、文字列のハイライト、検索、辞書の参照、引用などの機能が使用できません。

デジタルカメラの顔認識機能など、身近で利用されている画像認識の技術。機械学習の応用により、その精度は格段に向上した。最前線で活躍する研究者が、基礎から深層学習を取り入れた応用的手法までをくわしく解説する。画像認識の現状と今後の展望を知るのに最適な一冊！

もっとみる

商品情報

シリーズ: 画像認識

著者: 原田達也

ジャンル: サイエンス・テクノロジー - 工学

出版社: 講談社

掲載誌・レーベル: 機械学習プロフェッショナルシリーズ

書籍発売日: 2017.05.24

Reader Store発売日: 2017.09.08

ファイルサイズ: 206.1MB

ページ数: 288ページ

以下の製品には非対応です

PlayStation®Vita

※この商品はタブレットなど大きなディスプレイを備えた機器で読むことに適しています。
文字だけを拡大することや、文字列のハイライト、検索、辞書の参照、引用などの機能が使用できません。

¥3,300（税込）

クーポン対象

この商品に利用できるクーポンはこちら

【本日限定】 3,000円（税込）以上の購入で使える 20%OFFクーポン

20%OFF 2024.04.24まで
【本日限定】100円（税込）以上の購入で使える 15％OFFクーポン

15%OFF 2024.04.24まで

画像認識

新刊通知

原田達也

ONOFF
画像認識

ONOFF

もっとみる

この作品のレビュー

平均 4.7 （5件のレビュー）

レビューを書く

レビューネーム未設定

このレビューはネタバレを含みます

今まで画像認識＝ディープラーニングという認識だったが実際は全くそんなことはなく、従来の画像認識の局所特徴抽出や記述子についてや画像検索についてなども学ぶことができた　結局ここら辺はCNNの中で勝手に処理してくれるところにはなるが背景としてわかっていくことは非常に重要だと感じた
また機械学習をよく知らない人にとっても、基本的な機械学習のアルゴリズムは説明されているので親切だと感じた

1章　画像認識の概要
画像認識の歴史、画像認識がなぜ難しいのか、画像認識の種類について主に説明されていた
またDNNではない基礎的な画像認識のクラス分類の手順についても書かれていた

2章　局所特徴
このあたりからしばらくDNNではない話が続き、しかもほとんど数式なので機械学習としての画像認識本と思って購入した自分にはかなり難しい話が続く　大きく分けて検出器と記述子の2つの概念が出てきてこれが難しい
まず検出器の話の前に、局所特徴というものは画像認識にあたって画像の中で重要になる小領域である図形の角や辺をどのように認識し数値化するかという話である　ざっくり言うと画像は画素ベクトルで表現されるのでその数値を微分すると境界である物体の辺や角が分かるという寸法である　その際にCNNでもおなじみ畳み込みカーネルによる画像の平滑化が必要である　角や辺を見つけるには検出器が必要でこれは微分した値を分析するだけであるが、ここにも線形代数が出てくる　ただ見つけるだけでなく画像が回転した時にも対応できるような工夫も必要となる
次に記述子について、局所特徴ででてきたベクトルを分析に有利な形に変換するものが記述子というベクトルである（計算コスト削減とか）　その中にSIFT記述子とSURF記述子という2つの有名なものがあり、まずSIFT記述子は局所特徴を強度と傾きで表現するように変換する　それにより3つの変数（2つは強度1つは角度）で画像の輝度勾配強度の分布を表現できる　なのでSIFT記述子は3次元テンソル（のはず、、本内のベクトルとか次元とかん表現が自分の認識と少し異なるように感じた）次にHOG記述子はSIFTと違って30度と210度の角度は同じになる　SURF記述子はSIFTの改良版で計算を高速にした
もちろんCNNで学習させて局所記述子を得ることもできる（CNNの中間層から得られる）

3章　統計的特徴抽出
これは画像に含まれる外乱やノイズをどのようにして統計的に取り除くき画像認識に有利な形へと画像を変換するのかというお話　ほぼ線形代数のお話
まずは教師なし状態を想定したものとして、主成分分析により次元削減や白色化（異なる変数を無相関化してスケールを揃える）
次に教師あり状態を想定したLDAで教師データを基にしていい感じの射影を見つけて次元削減する　他にも複数の画像によくみられる情報を抽出するCCAやPLSなどについて

4章　コーディングとプーリング
名前は聞き慣れた2つだがCNNのそれとは微妙に異なっているので少しややこしい　ちなみにかなり数式や概念が難しくここで挫折する人も多そう　先輩曰くライブラリ使ってCNNのモデル作る過程ではそこまで気にしない話らしいので飛ばしてもいいのかも
コーディングはカーネルSVMみたいに一旦画像の次元を高次元にしてその中で有意な特徴を見つける感じ　このための射影に使うコーディング関数にいろんなものがあって4章の大半はそれぞれの説明に使われている
プーリングはそうやって膨らませたたくさんのコーディング後の情報を1本のベクトルにまとめあげる作業
コーディングの手法は①データが確率分布を推定してコーディング関数を設計するもの　コードワードを作るBoVWやフィッシャーベクトルもここで使う　②コードワードを利用した局所特徴の再構築によるコーディング関数の設計　③非線形関数を訓練データから生成　④カーネル関数を特徴写像の線形内積に近似する手法
プーリングする際に画像内の空間情報が失われることを留意して空間情報をプーリング後ベクトルに埋め込むｋとが行われている

5章　分類
これは画像分類の際の分類手法のお話で、機械学習目的でこの本にたどり着いた人にとってはおそらく簡単な部類に入る章
まずベイズ決定則について、決定則により得られる損失を最小にすることを目指して設計すべきという説明から入り最適化する際の学習係数や目的関数、勾配降下法についてのおなじみの話に入った
次に識別に用いる関数として線形回帰やSVM、局所領域ごとに学習システムを適用させる局所学習、全部まとめて非線形に処理する集団学習（バギング、ブースティング、決定木）など
最後に分類結果をどう評価するというやはりおなじみの話についても

6章　CNN
今回の肝であり、本書を購入した一番の目的でもあるCNNについての章
まずはパーセプトロンの話で非線形をどう評価するかの話、それぞれの層に役割があるという話、順伝播・逆伝播について
CNNについてはそれぞれのカーネルが4章のコーディング関数に相当するという話から始まり各チャネル（特徴マップ）は高さ・幅・チャンネルの3次元構造を持っているとか、ストライド・ゼロパディング・プーリング層について　CNNは中間層にて畳み込みとプーリングが何回も何回も繰り返し行われていると理解した
次に実装する上での活性化関数やドロップアウト、重み減衰の話や、確率的勾配降下法以外のパラメータ調整の方法（たとえばAdamによるパラメータ更新）など

7章　物体検出
これもCNNと同じく自分が前から気になっていた部分
物体検出ではバウンディングボックスが登場　画像内でスライドさせて1つ1つクラス認識していくのは計算量がやばすぎるので物体らしさを基にして画像を絞ったり、いきなり認識せずにハードルをいくつか用意していく手法などがある　バウンディングボックス自体のパラメータは計4つなのでこの4つの最適化と考えることも可能
次にバウンディングボックスを1つに絞る方法としてのNMS　これは実装上とても大事だがアルゴリズムはとてもシンプルだった
CNNの活用としてはR-CNNが主流でクラス認識とバウンディングボックスの各パラメータの回帰を同時に行なっていく　この2つをまとめた回帰問題として解くのがYOLO
物体検出の評価は簡単で予想したボックスと正のボックスと2つの長方形があるが、この積面積を和面積
で割るだけである　また画像全体でみたときの評価法としてmAPがある（PR曲線の下の面積を利用）

8章　インスタンス認識
これは画像検索とかの話でCNNからは少し外れる
局所特徴→BoVWのベクトル化を利用して検索しやすい形にする　検索サーバの中には大量の画像が入っててBoVWによるIDと紐づけられている　ベクトル同士の内積を利用して検索結果をランキングしている　画像の局所特徴の数は膨大なのでK-meansを使って効率的に局所特徴→コードワード変換を行う
検索する時は総当りだと大変なのでハッシュ化を使う
画像検索の適合率も7章と同じくmAPを使うっぽい

9章　その他
最後にセグメンテーションとかその他についての説明
まずセグメンテーションについて、セグメンテーションを行うにはCNNで一回エンコードしたあとにデコードする作業が加わる（エンコーダ・デコーダネットワーク）普通の畳み込みでなく転置畳み込みを使う
次にキャプション作成　これは画像に関連するキャプションをつけるというものでNLPやRNNが関わってくる　NIC（Neural Image Caption）が肝となっており機械翻訳の基盤らしい　要するに画像を言語に翻訳するモデルで、RNNとしてたくさんのLSTM層を使う　LSTMの各パラメータはSGDの最適化手法で求められる
次に画像生成　これはGANってやつで生成器と識別器を戦わせる　つまり訓練画像を基にして、識別器を騙せるような画像を新しく生成器が作成する　ここで重要なのはそれぞれが評価関数を最小化する際に操れるパラメータが2つのうち1つずつしかないことで、結果的にナッシュ均衡が生まれる　GANにCNNを適用したものをDCGANという
レビューの続きを読む

投稿日：2019.12.18
おぬま

ディープラーニングが流行ったタイミングで購入した本の1つ。
画像認識に特化した本。カラーで非常に分かりやすく、好印象。

結局、この本を参考に実装したりは私はしなかったので、勿体なかったかもしれない。

投稿日：2022.09.08

すべてのレビューを見る

新刊自動購入は、今後配信となるシリーズの最新刊を毎号自動的にお届けするサービスです。

・発売と同時にすぐにお手元のデバイスに追加！
・買い逃すことがありません！
・いつでも解約ができるから安心！

※新刊自動購入の対象となるコンテンツは、次回配信分からとなります。現在発売中の最新号を含め、既刊の号は含まれません。ご契約はページ右の「新刊自動購入を始める」からお手続きください。

※ご契約をいただくと、このシリーズのコンテンツを配信する都度、毎回決済となります。配信されるコンテンツによって発売日・金額が異なる場合があります。ご契約中は自動的に販売を継続します。

不定期に刊行される「増刊号」「特別号」等も、自動購入の対象に含まれますのでご了承ください。（シリーズ名が異なるものは対象となりません）

※再開の見込みの立たない休刊、廃刊、出版社やReader Store側の事由で契約を終了させていただくことがあります。

※My Sony IDを削除すると新刊自動購入は解約となります。

お支払方法：クレジットカードのみ
解約方法：マイページの「予約・新刊自動購入設定」より、随時解約可能です

閉じる

続巻自動購入は、今後配信となるシリーズの最新刊を毎号自動的にお届けするサービスです。

・発売と同時にすぐにお手元のデバイスに追加！
・買い逃すことがありません！
・いつでも解約ができるから安心！
・優待ポイントが2倍になるおトクなキャンペーン実施中！

※続巻自動購入の対象となるコンテンツは、次回配信分からとなります。現在発売中の最新巻を含め、既刊の巻は含まれません。ご契約はページ右の「続巻自動購入を始める」からお手続きください。

不定期に刊行される特別号等も自動購入の対象に含まれる場合がありますのでご了承ください。（シリーズ名が異なるものは対象となりません）

※再開の見込みの立たない休刊、廃刊、出版社やReader Store側の事由で契約を終了させていただくことがあります。

※My Sony IDを削除すると続巻自動購入は解約となります。

お支払方法：クレジットカードのみ
解約方法：マイページの「予約自動購入設定」より、随時解約可能です

閉じる

画像認識

原田達也(著)

機械学習プロフェッショナルシリーズ

作品情報

商品情報

この商品に利用できるクーポンはこちら

新刊通知

この作品のレビュー

クーポンコード登録

Reader Storeをご利用のお客様へ

ご利用ありがとうございます!

本棚に以下の作品が追加されました

追加された作品は本棚から読むことが出来ます