IT Text 音声認識システム(改訂2版)

河原達也 / オーム社
(1件のレビュー)

総合評価:

平均 3.0
0
0
1
0
0

ブクログレビュー

"powered by"

  • ndoi

    ndoi

    現在の音声認識技術は、統計モデルにその基盤をおいており、音響モデルには大量の音声データ、言語モデルには、大量のテキストデータが必要不可欠である。
    音響モデルでは、音声波形から音声認識に必要な言語情報(音韻情報)に対応する物理的な特徴量(音声特徴量)を抽出する。パターン認識モデルを使い、音声特徴量から音素に変換することで、音声を音素に分解していく。分解された音素モデルを連結することで単語モデルを構成し、最も高い確率で観測された音響特徴量をを出力するモデルに対応する単語を決定する。さらに単語間の接続規則として与えられた文法を満たすさまざまな文仮説の中から、最も高い確率で観測音響特徴量を出力する文を決定する。
    言語モデルの現在の主流は、サンプルデータから統計的な手法によって、確率推定を行う統計的言語モデルである。最も単純なNグラムモデル、中間層の出力をフィードバックさせるリカレントニューラルネットワーク(RNN)や、より学習を効果的に行えるようにしたLSTNなどが使われている。
    音声認識システムの実現例として、オープンソースで誰でも使えるJulius、研究開発を行うシステムとしてのKaldi、国会審議の音声認識システムなどがある。
    続きを読む

    投稿日:2017.02.16

クーポンコード登録

登録

Reader Storeをご利用のお客様へ

ご利用ありがとうございます!

エラー(エラーコード: )

本棚に以下の作品が追加されました

本棚の開き方(スマートフォン表示の場合)

画面左上にある「三」ボタンをクリック

サイドメニューが開いたら「(本棚アイコンの絵)」ボタンをクリック

このレビューを不適切なレビューとして報告します。よろしいですか?

ご協力ありがとうございました
参考にさせていただきます。

レビューを削除してもよろしいですか?
削除すると元に戻すことはできません。