WEKO3
アイテム
{"_buckets": {"deposit": "f082afe9-2648-4da6-83ed-df1c0064afbe"}, "_deposit": {"id": "3413", "owners": [], "pid": {"revision_id": 0, "type": "depid", "value": "3413"}, "status": "published"}, "_oai": {"id": "oai:repository.dl.itc.u-tokyo.ac.jp:00003413", "sets": ["234", "262"]}, "item_7_alternative_title_1": {"attribute_name": "その他のタイトル", "attribute_value_mlt": [{"subitem_alternative_title": "Improvement of Speech Recognition Front-end Processing for Noisy Environments using Principal Component Analysis based Feature Enhancement"}]}, "item_7_biblio_info_7": {"attribute_name": "書誌情報", "attribute_value_mlt": [{"bibliographicIssueDates": {"bibliographicIssueDate": "2012-03-22", "bibliographicIssueDateType": "Issued"}, "bibliographic_titles": [{}]}]}, "item_7_date_granted_25": {"attribute_name": "学位授与年月日", "attribute_value_mlt": [{"subitem_dategranted": "2012-03-22"}]}, "item_7_degree_name_20": {"attribute_name": "学位名", "attribute_value_mlt": [{"subitem_degreename": "修士(情報理工学)"}]}, "item_7_description_5": {"attribute_name": "抄録", "attribute_value_mlt": [{"subitem_description": "スマートフォンなどの普及により, 車内やレストランといった雑音のある環境でも広く音声認識が用いられるようになってきた. しかし雑音環境下における音声認識では, 静かな環境で収録した音声で事前に学習した音響モデルと, 雑音で歪んだ音声との間のミスマッチにより, 認識精度が著しく低下するという問題がある. この問題に対応するため, これまで様々な手法が提案されてきた. 例えば, 雑音に頑健な特徴量を用いる手法や, 音響モデルを雑音環境に適応させる手法などがある. その中でも本研究では特に, 比較的計算量が少なく, 非常に大きな効果を発揮している特徴量強調に着目した. 特徴量強調は, 音声特徴量の統計的情報などを利用して, 雑音付加音声特徴量からクリーン音声特徴量に変換する手法である. 具体的には, SPLICEと呼ばれる既存手法の主成分分析に基づいた高精度化に取り組んだ. 従来のSPLICEは変換関数を学習した環境と似た雑音に対しては非常に有効であるが, 未知の雑音環境下においては十分な性能を発揮することが保証されていない. そこで本研究では, 未知の雑音環境にも適応できるEigen-SPLICEを提案した. 基本的な枠組みとしては, 計算量を抑え, 少量の適応データで変換関数を適応できるように, 主成分分析を用いて適応すべきパラメータを削減した. この際, 入力発声の雑音のみの区間を学習データ中のクリーン音声に重畳することで, 適応に必要な擬似パラレルデータを作成した. その他にも, 固有声に基づいた声質変換手法を, 雑音環境下における特徴量強調の枠組みに導入したEigen Joint GMM法なども提案した. これら2つの提案手法は, 基本的な枠組みは似ているが, 幾つかの違いがある. Eigen SPLICEは適応の対象が変換関数であるために, 適応データとして擬似パラレルデータが必要があるが, 重みベクトルの推定は解析的に計算できる. 一方, Eigen Joint GMM法は適応の対象がGMMのパラメータであるため, 擬似パラレルデータは必要としないが, 重みベクトルの推定には繰り返し計算によって局所最適解を求めることしかできない. 本研究では雑音環境下における音声認識データベースAURORA-2を用いて実験を行い, 従来手法との性能比較を行い, 提案手法の有効性が示された. 特に, Eigen-SPLICEの性能改善は大きく, 未知雑音環境下においても十分な性能を発揮した. 提案手法の今後の課題としては, 乗法性雑音への対応がある. 擬似パラレルデータを作るときにクリーン音声に雑音を重畳する必要がり, 現在の手法では原理的に乗法性雑音には対応できない. また, 今後の展望としては, より頑健な特徴量の導入やUncertainty Decodingの導入が考えられる.", "subitem_description_type": "Abstract"}]}, "item_7_full_name_3": {"attribute_name": "著者別名", "attribute_value_mlt": [{"nameIdentifiers": [{"nameIdentifier": "8201", "nameIdentifierScheme": "WEKO"}], "names": [{"name": "Chijiiwa, Keigo"}]}]}, "item_7_select_21": {"attribute_name": "学位", "attribute_value_mlt": [{"subitem_select_item": "master"}]}, "item_7_subject_13": {"attribute_name": "日本十進分類法", "attribute_value_mlt": [{"subitem_subject": "007", "subitem_subject_scheme": "NDC"}]}, "item_7_text_24": {"attribute_name": "研究科・専攻", "attribute_value_mlt": [{"subitem_text_value": "情報理工学系研究科電子情報学専攻"}]}, "item_7_text_36": {"attribute_name": "資源タイプ", "attribute_value_mlt": [{"subitem_text_value": "Thesis"}]}, "item_7_text_4": {"attribute_name": "著者所属", "attribute_value_mlt": [{"subitem_text_value": "東京大学大学院情報理工学系研究科電子情報学専攻"}, {"subitem_text_value": "Department of Information and Communication Engineering, Graduate School of Information Science and Technology, The University of Tokyo"}]}, "item_creator": {"attribute_name": "著者", "attribute_type": "creator", "attribute_value_mlt": [{"creatorNames": [{"creatorName": "千々岩, 圭吾"}], "nameIdentifiers": [{"nameIdentifier": "8200", "nameIdentifierScheme": "WEKO"}]}]}, "item_files": {"attribute_name": "ファイル情報", "attribute_type": "file", "attribute_value_mlt": [{"accessrole": "open_date", "date": [{"dateType": "Available", "dateValue": "2017-05-31"}], "displaytype": "detail", "download_preview_message": "", "file_order": 0, "filename": "48106423.pdf", "filesize": [{"value": "1.2 MB"}], "format": "application/pdf", "future_date_message": "", "is_thumbnail": false, "licensetype": "license_free", "mimetype": "application/pdf", "size": 1200000.0, "url": {"label": "48106423.pdf", "url": "https://repository.dl.itc.u-tokyo.ac.jp/record/3413/files/48106423.pdf"}, "version_id": "b705a25c-00da-42d1-b3b4-458ed6171dc5"}]}, "item_language": {"attribute_name": "言語", "attribute_value_mlt": [{"subitem_language": "jpn"}]}, "item_resource_type": {"attribute_name": "資源タイプ", "attribute_value_mlt": [{"resourcetype": "thesis", "resourceuri": "http://purl.org/coar/resource_type/c_46ec"}]}, "item_title": "主成分分析に基づく特徴量強調を用いた雑音環境下における音声認識フロントエンドの高精度化", "item_titles": {"attribute_name": "タイトル", "attribute_value_mlt": [{"subitem_title": "主成分分析に基づく特徴量強調を用いた雑音環境下における音声認識フロントエンドの高精度化"}]}, "item_type_id": "7", "owner": "1", "path": ["234", "262"], "permalink_uri": "http://hdl.handle.net/2261/51737", "pubdate": {"attribute_name": "公開日", "attribute_value": "2012-05-29"}, "publish_date": "2012-05-29", "publish_status": "0", "recid": "3413", "relation": {}, "relation_version_is_last": true, "title": ["主成分分析に基づく特徴量強調を用いた雑音環境下における音声認識フロントエンドの高精度化"], "weko_shared_id": null}
主成分分析に基づく特徴量強調を用いた雑音環境下における音声認識フロントエンドの高精度化
http://hdl.handle.net/2261/51737
http://hdl.handle.net/2261/517373ea5af54-c7ce-4749-90a4-20b48577339f
名前 / ファイル | ライセンス | アクション |
---|---|---|
48106423.pdf (1.2 MB)
|
|
Item type | 学位論文 / Thesis or Dissertation(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2012-05-29 | |||||
タイトル | ||||||
タイトル | 主成分分析に基づく特徴量強調を用いた雑音環境下における音声認識フロントエンドの高精度化 | |||||
言語 | ||||||
言語 | jpn | |||||
資源タイプ | ||||||
資源 | http://purl.org/coar/resource_type/c_46ec | |||||
タイプ | thesis | |||||
その他のタイトル | ||||||
その他のタイトル | Improvement of Speech Recognition Front-end Processing for Noisy Environments using Principal Component Analysis based Feature Enhancement | |||||
著者 |
千々岩, 圭吾
× 千々岩, 圭吾 |
|||||
著者別名 | ||||||
識別子 | 8201 | |||||
識別子Scheme | WEKO | |||||
姓名 | Chijiiwa, Keigo | |||||
著者所属 | ||||||
著者所属 | 東京大学大学院情報理工学系研究科電子情報学専攻 | |||||
著者所属 | ||||||
著者所属 | Department of Information and Communication Engineering, Graduate School of Information Science and Technology, The University of Tokyo | |||||
Abstract | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | スマートフォンなどの普及により, 車内やレストランといった雑音のある環境でも広く音声認識が用いられるようになってきた. しかし雑音環境下における音声認識では, 静かな環境で収録した音声で事前に学習した音響モデルと, 雑音で歪んだ音声との間のミスマッチにより, 認識精度が著しく低下するという問題がある. この問題に対応するため, これまで様々な手法が提案されてきた. 例えば, 雑音に頑健な特徴量を用いる手法や, 音響モデルを雑音環境に適応させる手法などがある. その中でも本研究では特に, 比較的計算量が少なく, 非常に大きな効果を発揮している特徴量強調に着目した. 特徴量強調は, 音声特徴量の統計的情報などを利用して, 雑音付加音声特徴量からクリーン音声特徴量に変換する手法である. 具体的には, SPLICEと呼ばれる既存手法の主成分分析に基づいた高精度化に取り組んだ. 従来のSPLICEは変換関数を学習した環境と似た雑音に対しては非常に有効であるが, 未知の雑音環境下においては十分な性能を発揮することが保証されていない. そこで本研究では, 未知の雑音環境にも適応できるEigen-SPLICEを提案した. 基本的な枠組みとしては, 計算量を抑え, 少量の適応データで変換関数を適応できるように, 主成分分析を用いて適応すべきパラメータを削減した. この際, 入力発声の雑音のみの区間を学習データ中のクリーン音声に重畳することで, 適応に必要な擬似パラレルデータを作成した. その他にも, 固有声に基づいた声質変換手法を, 雑音環境下における特徴量強調の枠組みに導入したEigen Joint GMM法なども提案した. これら2つの提案手法は, 基本的な枠組みは似ているが, 幾つかの違いがある. Eigen SPLICEは適応の対象が変換関数であるために, 適応データとして擬似パラレルデータが必要があるが, 重みベクトルの推定は解析的に計算できる. 一方, Eigen Joint GMM法は適応の対象がGMMのパラメータであるため, 擬似パラレルデータは必要としないが, 重みベクトルの推定には繰り返し計算によって局所最適解を求めることしかできない. 本研究では雑音環境下における音声認識データベースAURORA-2を用いて実験を行い, 従来手法との性能比較を行い, 提案手法の有効性が示された. 特に, Eigen-SPLICEの性能改善は大きく, 未知雑音環境下においても十分な性能を発揮した. 提案手法の今後の課題としては, 乗法性雑音への対応がある. 擬似パラレルデータを作るときにクリーン音声に雑音を重畳する必要がり, 現在の手法では原理的に乗法性雑音には対応できない. また, 今後の展望としては, より頑健な特徴量の導入やUncertainty Decodingの導入が考えられる. | |||||
書誌情報 | 発行日 2012-03-22 | |||||
日本十進分類法 | ||||||
主題 | 007 | |||||
主題Scheme | NDC | |||||
学位名 | ||||||
学位名 | 修士(情報理工学) | |||||
学位 | ||||||
値 | master | |||||
研究科・専攻 | ||||||
情報理工学系研究科電子情報学専攻 | ||||||
学位授与年月日 | ||||||
学位授与年月日 | 2012-03-22 |