UTokyo Repository 東京大学
 

UTokyo Repository >
124 情報理工学系研究科 >
40 電子情報学専攻 >
1244025 修士論文(電子情報学専攻) >

このページ(論文)をリンクする場合は次のURLを使用してください: http://hdl.handle.net/2261/50138

タイトル: Wikipediaを用いた人物名の曖昧性解消
著者: 吉田, 康浩
発行日: 2007年2月2日
抄録: 本論文ではウェブ空間における人物名の曖昧性解消、即ち同姓同名問題の解決を行なうために、wikipediaという新しい言語資源に注目し、それが有効か検証する実験を行なった。情報検索における問題のひとつに同姓同名問題が存在する。ある人物に関する情報を探すため、その人物名を検索語として与えた場合を考える。検索語と文書の間で単純に文字列照合を行ったのでは、目的の人物について記述している文書のほかに、その同姓同名人物に関する文書まで検索されてしまう。これに対する単純な解決方法は、検索された文書を別人ごとにクラスタリングして提示することである。このタスクは、自然言語処理において広く議論さている多義性解消(Word Sense Disambig uation)の一種であると考えることができる。これまで自然言語処理の分野では、タグ付きコーパスを利用した教師有り手法や、国語辞典の定義文に基づく手法が多義性解消のために提案されている。しかし、こうした手法は同姓同名問題には直接適用できない。なぜなら,検索されるような人物名を網羅したようなタグ付きコーパスや国語辞典は存在しないからである。そこで我々はwikipediaという辞書に着目した。wikipediaに記載される情報は不特定多数のユーザが協力して更新されていて、既存の辞書とは異なり即時性や網羅性が高い。そのため、検索されるような人物名に関する記述も豊富であることが期待できる。本論文ではwikipediaという新しい言語資源の同姓同名問題における有効性を検証する実験を行なったのでその報告を行なう。多義性解消の手法には、wikipediaに記載されているテキストの特徴単語を用いるという、ベースライン的な手法を用いた。17の人物名を用いて, 1736件のウェブ文書に対する実験を行った結果、wikipediaに記載されている情報は同姓同名問題に有効であることが確認できた。
内容記述: 報告番号: ; 学位授与年月日: 2007-03-22 ; 学位の種別: 修士 ; 学位の種類: 修士(情報理工学) ; 学位記番号: ; 研究科・専攻: 情報理工学系研究科電子情報学専攻
URI: http://hdl.handle.net/2261/50138
出現カテゴリ:025 修士論文
1244025 修士論文(電子情報学専攻)

この論文のファイル:

ファイル 記述 サイズフォーマット
K-M213.pdf6.41 MBAdobe PDF見る/開く

本リポジトリに保管されているアイテムはすべて著作権により保護されています。

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2010  Duraspace - ご意見をお寄せください