WEKO3
アイテム
{"_buckets": {"deposit": "73197bd4-3219-4436-b486-a63b82df584a"}, "_deposit": {"id": "4852", "owners": [], "pid": {"revision_id": 0, "type": "depid", "value": "4852"}, "status": "published"}, "_oai": {"id": "oai:repository.dl.itc.u-tokyo.ac.jp:00004852", "sets": ["234", "262"]}, "item_7_alternative_title_1": {"attribute_name": "その他のタイトル", "attribute_value_mlt": [{"subitem_alternative_title": "Noise Robust Speech Recognition ThroughIntegration of Various Noise Suppression Methods"}]}, "item_7_biblio_info_7": {"attribute_name": "書誌情報", "attribute_value_mlt": [{"bibliographicIssueDates": {"bibliographicIssueDate": "2013-03-25", "bibliographicIssueDateType": "Issued"}, "bibliographic_titles": [{}]}]}, "item_7_date_granted_25": {"attribute_name": "学位授与年月日", "attribute_value_mlt": [{"subitem_dategranted": "2013-03-25"}]}, "item_7_degree_name_20": {"attribute_name": "学位名", "attribute_value_mlt": [{"subitem_degreename": "修士(情報理工学)"}]}, "item_7_description_5": {"attribute_name": "抄録", "attribute_value_mlt": [{"subitem_description": "スマートフォンなどの普及により,車内やレストランといった雑音のある環境でも広く音声認識が用いられるようになってきた.しかし雑音環境下における音声認識では,静かな環境で収録した音声で事前に学習した音響モデルと,雑音で歪んだ音声との間のミスマッチにより,認識精度が著しく低下するという問題がある.雑音によるミスマッチを軽減するために1 つのアプローチとして,音声の特徴量から雑音成分を取り除く雑音抑圧手法がある.具体的な手法としてはVTS,SPLICE,HEQ など多数提案されている.しかし1 つの手法のみで広範囲の雑音を抑圧することは難しいため,複数の手法を組み合わせて統合する必要がある.既に提案されている統合法として,逐次的に手法を組み合わせる方法や,各手法でそれぞれ認識をおこなって得られる複数の仮説から,信頼度を計算し最も信頼度の高い仮説を統合結果とする方法がある.しかしこれらの統合法は,複数の音響モデルで認識を行う必要があるため,認識にかかるコストが大きい.また手法によっては組み合わせることができないこともある.本論文ではそれらの問題を解決したSPLICE を用いた統合法を提案した.複数の雑音抑圧手法から得られる特徴量を結合したものから,SPLICE を用いてクリーンな特徴量に相当する統合された特徴を推定する.実際に認識を行う回数が1 回でよく,特に制約なく手法を組み合わせられる利点がある.提案法の有効性を確認するため,AURORA-2 データベースを用いて音声認識実験を行った.複数の特徴量を結合して学習するパラメータ数が増大したため,単純なSPLICE による統合では認識率が低かったが,正則化を施すことにより,過学習を避けつつ音声認識率の向上を達成し,信頼度による統合よりも高い性能を示すことがわかった.一方で逐次的に雑音抑圧手法を組み合わせた特徴量の中で,最高性能を示したAFE-SPLICE-HEQ を有意に超える結果は得られなかった.今後の課題としては,他のデータベースを用いた音声認識実験を行い,提案法が汎用的に高い認識率を示すか確認する必要がある.今回の実験では逐次的に組み合わせたAFE-SPLICE-HEQ の認識率を超えることが出来なかったが,他の雑音環境であれば提案法の方が有効な場合もありうる.", "subitem_description_type": "Abstract"}]}, "item_7_full_name_3": {"attribute_name": "著者別名", "attribute_value_mlt": [{"nameIdentifiers": [{"nameIdentifier": "10544", "nameIdentifierScheme": "WEKO"}], "names": [{"name": "Kai, Tsunenobu"}]}]}, "item_7_select_21": {"attribute_name": "学位", "attribute_value_mlt": [{"subitem_select_item": "master"}]}, "item_7_text_24": {"attribute_name": "研究科・専攻", "attribute_value_mlt": [{"subitem_text_value": "情報理工学系研究科・電子情報学専攻"}]}, "item_7_text_36": {"attribute_name": "資源タイプ", "attribute_value_mlt": [{"subitem_text_value": "Thesis"}]}, "item_7_text_4": {"attribute_name": "著者所属", "attribute_value_mlt": [{"subitem_text_value": "東京大学大学院情報理工学系研究科電子情報学専攻"}, {"subitem_text_value": "Department of Information and Communication Engineering, Graduate School of Information Science and Technology, The University of Tokyo"}]}, "item_creator": {"attribute_name": "著者", "attribute_type": "creator", "attribute_value_mlt": [{"creatorNames": [{"creatorName": "甲斐, 常伸"}], "nameIdentifiers": [{"nameIdentifier": "10543", "nameIdentifierScheme": "WEKO"}]}]}, "item_files": {"attribute_name": "ファイル情報", "attribute_type": "file", "attribute_value_mlt": [{"accessrole": "open_date", "date": [{"dateType": "Available", "dateValue": "2017-06-01"}], "displaytype": "detail", "download_preview_message": "", "file_order": 0, "filename": "48116413.pdf", "filesize": [{"value": "753.2 kB"}], "format": "application/pdf", "future_date_message": "", "is_thumbnail": false, "licensetype": "license_free", "mimetype": "application/pdf", "size": 753200.0, "url": {"label": "48116413.pdf", "url": "https://repository.dl.itc.u-tokyo.ac.jp/record/4852/files/48116413.pdf"}, "version_id": "46388f54-8899-4027-ac89-fc27021c0937"}]}, "item_language": {"attribute_name": "言語", "attribute_value_mlt": [{"subitem_language": "jpn"}]}, "item_resource_type": {"attribute_name": "資源タイプ", "attribute_value_mlt": [{"resourcetype": "thesis", "resourceuri": "http://purl.org/coar/resource_type/c_46ec"}]}, "item_title": "複数の雑音抑圧手法の統合による雑音に頑健な音声認識", "item_titles": {"attribute_name": "タイトル", "attribute_value_mlt": [{"subitem_title": "複数の雑音抑圧手法の統合による雑音に頑健な音声認識"}]}, "item_type_id": "7", "owner": "1", "path": ["234", "262"], "permalink_uri": "http://hdl.handle.net/2261/54197", "pubdate": {"attribute_name": "公開日", "attribute_value": "2013-05-07"}, "publish_date": "2013-05-07", "publish_status": "0", "recid": "4852", "relation": {}, "relation_version_is_last": true, "title": ["複数の雑音抑圧手法の統合による雑音に頑健な音声認識"], "weko_shared_id": null}
複数の雑音抑圧手法の統合による雑音に頑健な音声認識
http://hdl.handle.net/2261/54197
http://hdl.handle.net/2261/541973ee7cb56-be5c-489a-940d-580f54061a4c
名前 / ファイル | ライセンス | アクション |
---|---|---|
48116413.pdf (753.2 kB)
|
|
Item type | 学位論文 / Thesis or Dissertation(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2013-05-07 | |||||
タイトル | ||||||
タイトル | 複数の雑音抑圧手法の統合による雑音に頑健な音声認識 | |||||
言語 | ||||||
言語 | jpn | |||||
資源タイプ | ||||||
資源 | http://purl.org/coar/resource_type/c_46ec | |||||
タイプ | thesis | |||||
その他のタイトル | ||||||
その他のタイトル | Noise Robust Speech Recognition ThroughIntegration of Various Noise Suppression Methods | |||||
著者 |
甲斐, 常伸
× 甲斐, 常伸 |
|||||
著者別名 | ||||||
識別子 | 10544 | |||||
識別子Scheme | WEKO | |||||
姓名 | Kai, Tsunenobu | |||||
著者所属 | ||||||
著者所属 | 東京大学大学院情報理工学系研究科電子情報学専攻 | |||||
著者所属 | ||||||
著者所属 | Department of Information and Communication Engineering, Graduate School of Information Science and Technology, The University of Tokyo | |||||
Abstract | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | スマートフォンなどの普及により,車内やレストランといった雑音のある環境でも広く音声認識が用いられるようになってきた.しかし雑音環境下における音声認識では,静かな環境で収録した音声で事前に学習した音響モデルと,雑音で歪んだ音声との間のミスマッチにより,認識精度が著しく低下するという問題がある.雑音によるミスマッチを軽減するために1 つのアプローチとして,音声の特徴量から雑音成分を取り除く雑音抑圧手法がある.具体的な手法としてはVTS,SPLICE,HEQ など多数提案されている.しかし1 つの手法のみで広範囲の雑音を抑圧することは難しいため,複数の手法を組み合わせて統合する必要がある.既に提案されている統合法として,逐次的に手法を組み合わせる方法や,各手法でそれぞれ認識をおこなって得られる複数の仮説から,信頼度を計算し最も信頼度の高い仮説を統合結果とする方法がある.しかしこれらの統合法は,複数の音響モデルで認識を行う必要があるため,認識にかかるコストが大きい.また手法によっては組み合わせることができないこともある.本論文ではそれらの問題を解決したSPLICE を用いた統合法を提案した.複数の雑音抑圧手法から得られる特徴量を結合したものから,SPLICE を用いてクリーンな特徴量に相当する統合された特徴を推定する.実際に認識を行う回数が1 回でよく,特に制約なく手法を組み合わせられる利点がある.提案法の有効性を確認するため,AURORA-2 データベースを用いて音声認識実験を行った.複数の特徴量を結合して学習するパラメータ数が増大したため,単純なSPLICE による統合では認識率が低かったが,正則化を施すことにより,過学習を避けつつ音声認識率の向上を達成し,信頼度による統合よりも高い性能を示すことがわかった.一方で逐次的に雑音抑圧手法を組み合わせた特徴量の中で,最高性能を示したAFE-SPLICE-HEQ を有意に超える結果は得られなかった.今後の課題としては,他のデータベースを用いた音声認識実験を行い,提案法が汎用的に高い認識率を示すか確認する必要がある.今回の実験では逐次的に組み合わせたAFE-SPLICE-HEQ の認識率を超えることが出来なかったが,他の雑音環境であれば提案法の方が有効な場合もありうる. | |||||
書誌情報 | 発行日 2013-03-25 | |||||
学位名 | ||||||
学位名 | 修士(情報理工学) | |||||
学位 | ||||||
値 | master | |||||
研究科・専攻 | ||||||
情報理工学系研究科・電子情報学専攻 | ||||||
学位授与年月日 | ||||||
学位授与年月日 | 2013-03-25 |