2024-03-28T22:45:57Z
https://repository.dl.itc.u-tokyo.ac.jp/oai
oai:repository.dl.itc.u-tokyo.ac.jp:00004863
2022-12-19T03:46:32Z
34:105:262
9:233:234
Improvement of HMM-based speech synthesis from prosody aspect
韻律の観点からのHMM音声合成の高度化
橋本, 浩弥
10563
修士(情報理工学)
音声は人間がコミュニケーションを図る上で、重要な伝達手段の一つである。よって、機械を用いて自動的に音声を認識・合成することが可能になれば、人間と機械が音声で対話をすることによって意思疎通を図れるようになり、より人間と機械の距離を縮めることができる。そして、音声の認識・合成技術の発展によって、対話システムによる様々な案内サービスや学習支援などの提供が可能になり、社会インフラの向上が見込まれ、我々の生活がより便利になることが期待される。さらに、ユーザが思い描く通りの音声を任意のテキストから自動的に創りだすことが出来れば、映画やテレビ番組などのコンテンツを従来に比べて容易に作成することができるようになり、コンテンツの幅が広がることも期待できる。そのようなテキストを入力とし、対応する音声を自動的に合成するシステムは、テキスト読み上げ音声システム(Text-To-Speech; TTS) と呼ばれ、世界中で研究されてきた。しかし、実用レベルの品質には長いこと達しなかった。その原因の一つとして、音声の多様性にある。現在人間が利用している音声は、言語と密接な結びつきがあるが、文字と音声は必ずしも対応していないことが知られている。例えば、これは日本語の例になるが、「粘板岩(ねんばんがん)」は、3 回の「ん」があるが、これは音韻論の観点からは全て異なる音であることが知られている。また、音声の自然性に関係する重要な要素の一つであるアクセントやイントネーションは、音素単位1ではなく、単語や文全体にわたって表れる特徴であるため、適切にモデル化することが困難であった。TTS システムを実現するためには、このような複雑な音声の特徴をテキストから適切に再現する必要がある。さらに、テキストから読み上げられる音声は、話者、話者の発話スタイル、感情、強調、意図など、様々な要因によって変化するものであるため、柔軟な音声合成システムを実現するためには、ユーザが直感的に意図した通りの音声を合成できるようなシステムが必要不可欠である。音声合成システムは、このような多くの課題に直面してきたが、近年、計算機の目覚ましい発達、大規模コーパスの整備、及び数理統計手法の発展などを背景として、急速に発展してきている。実際、最近のモバイル端末において、Apple の「Siri」2やNTT docomoの「しゃべってコンシェル」3など、音声合成を利用したサービスが搭載されるようになり、音声をインターフェースに利用したシステムが注目されるようになってきた。だが、現在に至っても未だにその性能や品質は十分であるとは言えない。現状のシステムでは、ユーザが自由に合成音声を制御することが困難である。また、合成された音声は、音質が十分ではなく、特に韻律に不自然なところがあり、人間が実際に発生した音声とは大きな隔たりがある。この韻律は、アクセントやイントネーションなど、音の強弱・長短・高低などによって表現される言葉のリズムであり、音声の自然性や発話意図などに関係する重要な要素である。そこで本研究では、主に韻律に注目して音声合成システムの改善に取り組む。まず初めに、音の高低による韻律表現に注目する。音の高さは一般にピッチと呼ばれているが、工学的には基本周波数という特徴量がおよそそれに対応していることが知られている。しかし、基本周波数は安定して抽出することが困難であり、また、音の高低による韻律的特徴は、フレーム単位ではなく単語やそれより長い単位で表れるため、容易に取り扱うことが困難であった。ここで、基本周波数の時系列パターンを表現するモデルとして、基本周波数パターン生成過程モデルというモデルがある。このモデルは生理的・物理的特性に基づいており、少数のパラメータで基本周波数パターンを表現することができる。そして、このモデルパラメータは言語情報と対応がよくとれることが知られている。ところが、基本周波数パターンからモデルパラメータを自動で抽出することが困難であるという問題があった。そこで、音声合成システムの1 つであるHMM音声合成で用いられているコンテキストラベルを利用することにより、モデルパラメータの抽出性能を既存の手法と比較して、大幅に改善する手法を提案した。また、提案した手法を利用することにより、音声合成の品質の改善だけではなく、焦点制御などが従来に比べて容易に実現できることを示した。ここで、提案手法に利用しているコンテキストラベルとは、音声合成において、テキストには直接表れない韻律などの特徴を表現するために、音素以外に様々な情報を加えられたラベルのことを指す。しかしこのラベルは、次のような問題がある。ラベルに用いられているアクセント句は、定義に曖昧性がある上、話者や話者の発話速度、発話スタイルに依存してその長さが変化するため、自動抽出が困難である。本来、TTS を目的としたラベルはテキストから推定される情報のみを用いなければならない。また、多様な音声を実現するために付加情報を加える場合は、ユーザが直感的に操作可能なものである必要がある。さらに従来のラベルでは、アクセント句の位置番号などの絶対的な情報が用いられているが、これでは任意の長さの文章を合成するために理論上ラベルの種類が無限に必要であり、また、一部の発話構造が異なるだけで、文全体のラベルが変化してしまうという問題がある。そこで従来のラベルの問題点を改善するために、コンテキストラベルの改良をした。具体的には、アクセント句の代わりに定義の曖昧性が少なく話者性に依存しない文節を利用し、位置番号などの絶対的な情報ではなく、前後の単語や文節などの相対的な情報を用いることにした。提案したラベルを用いることにより、合成音声の品質が改善されることを聴取実験により確認した。また、このラベルは、合成音声の品質が改善されるだけではなく、従来に比べてテキストから容易に、かつ安定して抽出することが可能になるという利点がある。本論文で提案する基本周波数パターン生成過程モデルのモデルパラメータの自動抽出を高精度化する手法や、コンテキストラベルは、自然で多様な合成音声システムを実現するための重要なステップである。
thesis
2013-03-25
2013-03-25
application/pdf
https://repository.dl.itc.u-tokyo.ac.jp/record/4863/files/48116438.pdf
jpn