ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 124 情報理工学系研究科
  2. 40 電子情報学専攻
  3. 1244025 修士論文(電子情報学専攻)
  1. 0 資料タイプ別
  2. 20 学位論文
  3. 025 修士論文

口唇動画像を用いた区分的線形変換による雑音環境下マルチモーダル音声認識

http://hdl.handle.net/2261/54198
http://hdl.handle.net/2261/54198
9f052fa8-86f2-4677-b1ae-f83d7b8a8752
名前 / ファイル ライセンス アクション
48116414.pdf 48116414.pdf (1.4 MB)
Item type 学位論文 / Thesis or Dissertation(1)
公開日 2013-05-07
タイトル
タイトル 口唇動画像を用いた区分的線形変換による雑音環境下マルチモーダル音声認識
言語
言語 jpn
資源タイプ
資源 http://purl.org/coar/resource_type/c_46ec
タイプ thesis
その他のタイトル
その他のタイトル Multi-modal automatic speech recognition leveraging lip image information using piecewise linear transformation in noisy environments
著者 柏木, 陽佑

× 柏木, 陽佑

WEKO 10545

柏木, 陽佑

Search repository
著者別名
識別子Scheme WEKO
識別子 10546
姓名 Kashiwagi, Yosuke
著者所属
著者所属 東京大学大学院情報理工学系研究科電子情報学専攻
著者所属
著者所属 Department of Information and Communication Engineering, Graduate School of Information Science and Technology, The University of Tokyo
Abstract
内容記述タイプ Abstract
内容記述 自動音声認識システムは,次世代のコンピュータインタフェースとして非常に注目されている.自動音声認識は20 世紀半ばから研究が始められ,統計的パターン認識技術の発達や大規模なコーパスの構築とともに精度が向上し,特定の環境下では高い精度で大語彙の連続音声認識を実現出来るようになった.現在では,携帯電話やカーナビに代表される一般製品のインタフェースとして,また議事録の自動作成や企業のコールセンターにおけるデータマイニングなど,幅広い分野に自動音声認識技術が応用されている.しかし,自動音声認識システムの精度は,背景雑音の重畳により大幅に低下してしまうことが知られている.この問題を解決するために,非常に多くの研究が行われているものの、未だ十分に解決されていない.そのため,現在実用化されている自動音声認識システムは,雑音が小さな環境下や,ヘッドセットマイクの利用を前提としたものが多い.しかしながら,近年急速に普及した携帯端末における入力インタフェースとしての利用を考えると,高雑音環境下での高精度な音声認識精度の実現への期待は大きい.実環境での自動音声認識の使用を想定した場合,雑音に対して頑健なシステムを構築することは非常に重要である.本研究では,雑音環境下での認識性能の向上のために,音声そのものだけなく,口唇画像情報にも注目する.ヒトが高雑音環境下で音声認識を行うプロセスに注目すると,音声だけでなく,顔の表情や口唇の動きなどによって認識を補助していると考えられる.例えば,口唇の形や動きによってある程度の音素や発話タイミングを把握する経験は誰もが経験しているものであろう.高雑音環境下での自動音声認識では,このような音響雑音に影響されない情報を利用することによって認識率の向上が期待される.これらはマルチモーダル音声認識と呼ばれる分野であるが,多くのマルチモーダル音声認識の研究では十分な認識精度の向上が実現できていない.この理由として,申請者は音声と画像の統合法に問題があると考える.従来のマルチモーダル音声認識における音声と画像の統合法は大きく2つに分けられる.1つ目は音声と画像でそれぞれ別々に認識を行い,それぞれで得られた認識結果を統合する結果統合である.2つ目は音声と画像を特徴量の段階で統合して認識に用いる初期統合である.ここで,ヒトの音声認識プロセスを考えた際,発話が雑音や発音の曖昧さなどの理由により聞こえづらかった部分でヒトは口唇の動きなどから補完して認識していると予想される.すなわち,観測した音声の情報に依存して,どのような音声と画像の情報を統合するのかを柔軟に変更していると考えられるのだが,従来のマルチモーダル音声認識の統合法ではこれが実装されていない.そこで,本研究では,観測音声信号に依存させて音声と画像の情報を適切に組み合わせる新しい音声と画像情報の統合法を提案し,特に高雑音環境下での認識率の向上を目指す.
書誌情報 発行日 2013-03-25
学位名
学位名 修士(情報理工学)
学位
値 master
研究科・専攻
情報理工学系研究科・電子情報学専攻
学位授与年月日
学位授与年月日 2013-03-25
戻る
0
views
See details
Views

Versions

Ver.1 2021-03-02 07:49:13.491265
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3