2024-03-29T11:27:01Z
https://repository.dl.itc.u-tokyo.ac.jp/oai
oai:repository.dl.itc.u-tokyo.ac.jp:00004853
2022-12-19T03:46:31Z
34:105:262
9:233:234
Multi-modal automatic speech recognition leveraging lip image information using piecewise linear transformation in noisy environments
口唇動画像を用いた区分的線形変換による雑音環境下マルチモーダル音声認識
柏木, 陽佑
10545
修士(情報理工学)
自動音声認識システムは,次世代のコンピュータインタフェースとして非常に注目されている.自動音声認識は20 世紀半ばから研究が始められ,統計的パターン認識技術の発達や大規模なコーパスの構築とともに精度が向上し,特定の環境下では高い精度で大語彙の連続音声認識を実現出来るようになった.現在では,携帯電話やカーナビに代表される一般製品のインタフェースとして,また議事録の自動作成や企業のコールセンターにおけるデータマイニングなど,幅広い分野に自動音声認識技術が応用されている.しかし,自動音声認識システムの精度は,背景雑音の重畳により大幅に低下してしまうことが知られている.この問題を解決するために,非常に多くの研究が行われているものの、未だ十分に解決されていない.そのため,現在実用化されている自動音声認識システムは,雑音が小さな環境下や,ヘッドセットマイクの利用を前提としたものが多い.しかしながら,近年急速に普及した携帯端末における入力インタフェースとしての利用を考えると,高雑音環境下での高精度な音声認識精度の実現への期待は大きい.実環境での自動音声認識の使用を想定した場合,雑音に対して頑健なシステムを構築することは非常に重要である.本研究では,雑音環境下での認識性能の向上のために,音声そのものだけなく,口唇画像情報にも注目する.ヒトが高雑音環境下で音声認識を行うプロセスに注目すると,音声だけでなく,顔の表情や口唇の動きなどによって認識を補助していると考えられる.例えば,口唇の形や動きによってある程度の音素や発話タイミングを把握する経験は誰もが経験しているものであろう.高雑音環境下での自動音声認識では,このような音響雑音に影響されない情報を利用することによって認識率の向上が期待される.これらはマルチモーダル音声認識と呼ばれる分野であるが,多くのマルチモーダル音声認識の研究では十分な認識精度の向上が実現できていない.この理由として,申請者は音声と画像の統合法に問題があると考える.従来のマルチモーダル音声認識における音声と画像の統合法は大きく2つに分けられる.1つ目は音声と画像でそれぞれ別々に認識を行い,それぞれで得られた認識結果を統合する結果統合である.2つ目は音声と画像を特徴量の段階で統合して認識に用いる初期統合である.ここで,ヒトの音声認識プロセスを考えた際,発話が雑音や発音の曖昧さなどの理由により聞こえづらかった部分でヒトは口唇の動きなどから補完して認識していると予想される.すなわち,観測した音声の情報に依存して,どのような音声と画像の情報を統合するのかを柔軟に変更していると考えられるのだが,従来のマルチモーダル音声認識の統合法ではこれが実装されていない.そこで,本研究では,観測音声信号に依存させて音声と画像の情報を適切に組み合わせる新しい音声と画像情報の統合法を提案し,特に高雑音環境下での認識率の向上を目指す.
thesis
2013-03-25
2013-03-25
application/pdf
https://repository.dl.itc.u-tokyo.ac.jp/record/4853/files/48116414.pdf
jpn