WEKO3
アイテム
潜在的意味解析による中国語のインターネット新語に関する研究
http://hdl.handle.net/2261/51739
http://hdl.handle.net/2261/51739c9f6a322-3fee-460d-970c-5299ce90beb4
名前 / ファイル | ライセンス | アクション |
---|---|---|
48106426.pdf (2.8 MB)
|
|
Item type | 学位論文 / Thesis or Dissertation(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2012-05-29 | |||||
タイトル | ||||||
タイトル | 潜在的意味解析による中国語のインターネット新語に関する研究 | |||||
言語 | ||||||
言語 | jpn | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_46ec | |||||
資源タイプ | thesis | |||||
その他のタイトル | ||||||
その他のタイトル | A Study to Unravel the Characteristic of Chinese Internet New Words Using Latent Semantic Analysis | |||||
著者 |
那, 小川
× 那, 小川 |
|||||
著者別名 | ||||||
識別子Scheme | WEKO | |||||
識別子 | 8205 | |||||
姓名 | Na, XiaoChuan | |||||
著者所属 | ||||||
値 | 東京大学大学院情報理工学系研究科電子情報学専攻 | |||||
著者所属 | ||||||
値 | Department of Information and Communication Engineering, Graduate School of Information Science and Technology, The University of Tokyo | |||||
Abstract | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 近年、インターネットの迅速な発展に伴い、中国のインターネットユーザ数が2011年の6月までに4.85億人に達していた。今では中国最大の情報源として、インターネットが生活に欠かせない存在になっている。そんな中で、毎日新語があらゆるコミュニティによって作られている。去年では政府が認めるだけでも500語の新語が誕生した。また、毎年今年の流行語ランキングが国営テレビによって発表されるなど、これらの新語がインターネットにとどまるわけもなく、普段の生活にも驚異的なスピードで浸透してきている。これは日本語や英語には決して見られない現象であり、現在ではインターネットの新語を知らない人が中国の20代とのコミュニケーションが取れないほどにまでなったのである。言語学者たちの多くもこのインターネット新語に注目し、その由来や適用範囲について言語学的な側面で研究をし始めている。社会心理学にとっても重要な研究のテーマに数えられる。しかしながら、インターネットの新語にはコミュニティー特有の要素も含まれるため、理解するのに必要な前提知識を共有せずには十分に理解できないのが現状である。また、人間によって新語をインターネットから収集、分析するには多くの労力を要するもので未だに一部のインターネット新語しか学者たちに理解されていない。なお、人間の分析では客観性に欠くとされることもあり、また大規模のデータには不向きである。テキストマイニングによって、新語のさらなる特徴が発見されることが期待されている。私の研究ではこの状況を踏まえて、機械的な手法でインターネット新語の分布や、発生、その特徴を調べる手法ICTCLAS-LSAを提案する。中国語形態素解析の最新の研究成果であるICTCLASと、人工知能や自然言語処理分野でよく知られている定番の手法である潜在的意味解析をベースに、インターネットの情報だけで中国語のインターネット新語の意味を推測し、その発生分布(コミュニティー)を突き止める。潜在的意味解析は例えば「主成分分析」と「SVD」など、言語的には一見関係のないような単語に関係付けることができる1990年に提案された古典的な情報検索技術である。それは普通のVSM(ベクトルスペースモデル)を元に、単語をドキュメントではなく、コンセプト空間に圧縮し、射影して扱う手法で、近年様々な実験によって人間の認知モデルとの関係性や、その有効性が幅広く知られるようになった。中国語の新語検出は昔から大きな課題として未だに完全な解決には至っていない。それは、中国が英語と日本語とは違い、単語の明確な境が存在しないからである。中国語の形態素解析には多くの研究がなされ、本研究ではその最も優れたHHMMモデルに基づいて実装ICTCLASを採用し、新語の分析のみ行うものとする。もちろん、形態素解析の結果次第では本研究の精度も大きく左右されるものである。本研究では言語学者などの人間が中国語の新語解析を行う際に使われるツールを開発した。このツールは与えられた新語とコーパスを以て、新語と意味が近い単語群を抽出し、新語が属する単語のクラスタを出力する。言語学者たちはこれらの情報から知らない新語に関するヒントを手早く得られるのである。人間と比べて、本研究では以下のような利点がある。1.人力では負えないような膨大なデータ解析を行える//2.各々の言語学者の主観に頼らず、客観的なデータ抽出がなされる。//本研究は中国でもっとも人気なネット掲示板から約3万個のHTMLファイルをクローリングし、それらのデータを元に、約3.8W個の単語を研究対象にしている。これはLSAの応用では最大規模の実験になっている。実験の結果は主観的な評価になるが、ICTCLASとLSAによるシステムの有用性が実証されたものだと考えられる。しかし、いくつかの問題点も研究の中で浮き彫りになっており、現状ではまだ実用的な研究とは呼べない。それらの弱点を克服することで、将来は実用的な新語研究補助システムにできることが言える。 | |||||
書誌情報 | 発行日 2012-03-22 | |||||
日本十進分類法 | ||||||
主題Scheme | NDC | |||||
主題 | 007 | |||||
学位名 | ||||||
学位名 | 修士(情報理工学) | |||||
学位 | ||||||
値 | master | |||||
研究科・専攻 | ||||||
値 | 情報理工学系研究科電子情報学専攻 | |||||
学位授与年月日 | ||||||
学位授与年月日 | 2012-03-22 |