背景雑音と話者の違いに頑健な音声認識

鈴木, 雅之

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

背景雑音と話者の違いに頑健な音声認識

https://doi.org/10.15083/00004878

名前 / ファイル	ライセンス	アクション
37107091.pdf (1.6 MB)

Item type

学位論文 / Thesis or Dissertation(1)

公開日

2013-05-07

タイトル

背景雑音と話者の違いに頑健な音声認識

言語

jpn

資源タイプ

資源

http://purl.org/coar/resource_type/c_46ec

タイプ

thesis

ID登録

10.15083/00004878

ID登録タイプ

JaLC

その他のタイトル

Noise and speaker robust automatic speech recognition

著者

鈴木, 雅之

著者所属

東京大学大学院工学系研究科電気系工学専攻

著者所属

Department of Electrical Engineering and Information Systems, Graduate School of Engineering, The University of Tokyo

Abstract

内容記述タイプ

Abstract

内容記述

音声認識は様々なシステムの要素技術として利用されている．例えば，カーナビシステム，スマートフォンの音声対話システム，企業のコールセンタにおける電話自動応対システムなど，その応用範囲は多岐に渡る．音声認識の精度を高めることは，これらのシステムのユーザ満足度を向上させることに直結する．そのため，音声認識の精度を向上させるために研究を進めていくことが重要である．音声認識の精度は，様々な要因によって低下してしまうことが知られている．例えば背景雑音が音声に重畳してしまった場合，何も対処を行わないと音声認識精度は大幅に低下してしまう．他にも，話者の違い，マイクとの距離，部屋の残響，話している内容と，様々な要因によって音声認識精度が低下してしまう．本論文では，背景雑音と話者の違いに対して頑健なシステムを構築することで，より精度の高い音声認識の実現を目指す．音声認識に関するこれまでの研究サーベイの結果，本論文で特に注目したのは，特徴量ドメインでの雑音抑圧と，識別的リランキングにおける音声の構造的表象の利用である．特徴量ドメインでの雑音抑圧により音声認識が背景雑音に頑健な，識別的リランキングにおける音声の構造的表象の利用により話者の違いに頑健な音声認識を実現することを目指す．本論文では，まず第1 章で音声認識技術の基本について述べた後，第2 章において現在のstate-of-the-art 音声認識システムで利用されている重要な技術をサーベイし，どの点に注目して研究を進めることが音声認識システム全体の精度向上につながるのか考察する．その考察に基づき，第3 章ではクリーン音声状態の識別に基づく特徴量ドメインでの雑音抑圧手法を，第4 章ではクリーン音声に対しても精度低下のない雑音抑圧手法を，第5 章では識別的リランキングにおける音声の構造的表象の利用を提案し，その有効性を示す．最後に第6 章で本論文をまとめ，今後の課題と展望について述べる．

書誌情報

発行日 2013-03-25

学位名

博士(工学)

学位

値

doctoral

学位分野

Engineering (工学)

学位授与機関

学位授与機関識別子Scheme

kakenhi

学位授与機関識別子

12601

言語

学位授与機関名

東京大学

言語

学位授与機関名

The University of Tokyo

研究科・専攻

Department of Electrical Engineering and Information Systems, Graduate School of Engineering (工学系研究科電気系工学専攻)

学位授与年月日

2013-03-25

戻る

views

See details

	Views

Versions

Ver.1

2021-03-01 19:43:12.700410

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR 2.0
JPCOAR 1.0
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

背景雑音と話者の違いに頑健な音声認識

× 鈴木, 雅之

Versions

Share

Cite as

エクスポート