2024-03-29T08:06:19Z
https://repository.dl.itc.u-tokyo.ac.jp/oai
oai:repository.dl.itc.u-tokyo.ac.jp:00004854
2022-12-19T03:46:33Z
34:105:262
9:233:234
Performance improvement of evaluation of shadowing utterances based on phoneme-based regression and sentence stress detection
音素重回帰と文強勢検出を用いたシャドーイング音声評価の高精度化
加藤, 集平
10547
修士(情報理工学)
本研究の目的は,従来から存在するGoodness of Pronunciation (GOP) を用いたシャドーイング評価手法を,重回帰および文強勢検出を用いることで高精度化することである.GOPとは,HMM事後確率に基づく音素評価スコアで,発音評価に広く用いられている.従来手法では,シャドーイング音声中の各音素区間に対してGOPを計算し,それを文章全体にわたって平均したGOPall を自動評価スコアとしている.そして,GOPall と発話者のTOEICスコアに良好な相関があることを見出している.つまり,GOPall を説明変数とする単回帰で,発話者のTOEIC スコアを良好に推定できることになる.これに対して,本論文で述べる提案手法では,発話に対してGOP に基づいて計算した複数の自動評価スコア,および,文強勢検出に基づくスコアを説明変数とする重回帰を行うことによって,従来手法よりも高精度にTOEIC スコアを推定することを目指した.ただし,文強勢検出については,シャドーイング音声から直接文強勢検出を行うことは困難であるため,読み上げ音声を用いた文強勢検出の実験を行い,その技術を応用してシャドーイング音声の文強勢検出スコアを計算した.また,読み上げ音声を用いた文強勢検出の実験においては,識別モデルを用いて精度の高い文強勢検出を行うこと,音響特徴量以外の,テキストから得られる特徴量も積極的に使って精度を上げることを目指した.本論文では,重回帰を用いたシャドーイング評価の高精度化,読み上げ音声における文強勢検出,文強勢検出のシャドーイング評価への応用の順に述べる.重回帰を用いたシャドーイング評価の高精度化については,結果として,説明変数に用いるスコアによっては,重回帰(最小二乗法あるいはリッジ回帰)によって単回帰の場合よりも高精度にTOEIC スコアを推定することができた.読み上げ音声における文強勢検出については,日本人学生による英語読み上げデータベース(ERJ データベース)のリズム文の読み上げ音声を評価対象として,SVMを用いて高精度に文強勢の自動推定を行うことを目指し,音節ごとに強勢の度合いを自動推定する実験を行った.その過程で,評価対象音声に対して,手動判定により強勢の度合いを9 段階でラベリングする作業を行ったが,3 段階に丸めて用いた場合と,9 段階のまま使用した場合の2 通りについて実験を行った.特徴量セットに関して様々な検討を行い,評価者closedの場合に最高で81.8%(3 段階),47.0%(9 段階)の正解率を得ることができたが,手動判定の精度には及ばなかった.評価者open の場合は手動判定に近い結果が得られた.文強勢検出のシャドーイング評価への応用については,読み上げ音声に対する文強勢検出でも用いたSVM を,SVM を回帰に応用したSVR に変えることで強勢の度合いを連続値で推定し,それをもとに文強勢スコアを定義した.それを重回帰の説明変数に加えて,シャドーイング評価のさらなる高精度化を目指した.結果として,GOPをもとに重回帰を行った場合よりも,同程度か上回る精度が得られた.
thesis
2013-03-25
2013-03-25
application/pdf
https://repository.dl.itc.u-tokyo.ac.jp/record/4854/files/48116415.pdf
jpn