WEKO3
アイテム
Wikipediaを用いた人物名の曖昧性解消
http://hdl.handle.net/2261/50138
http://hdl.handle.net/2261/501388fd579f9-d09a-41d1-95b0-0a39ce599df4
名前 / ファイル | ライセンス | アクション |
---|---|---|
K-M213.pdf (6.6 MB)
|
|
Item type | 学位論文 / Thesis or Dissertation(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2012-01-11 | |||||
タイトル | ||||||
タイトル | Wikipediaを用いた人物名の曖昧性解消 | |||||
言語 | ||||||
言語 | jpn | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_46ec | |||||
資源タイプ | thesis | |||||
著者 |
吉田, 康浩
× 吉田, 康浩 |
|||||
著者所属 | ||||||
値 | 東京大学大学院情報理工学系研究科電子情報学専攻 | |||||
Abstract | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 本論文ではウェブ空間における人物名の曖昧性解消、即ち同姓同名問題の解決を行なうために、wikipediaという新しい言語資源に注目し、それが有効か検証する実験を行なった。情報検索における問題のひとつに同姓同名問題が存在する。ある人物に関する情報を探すため、その人物名を検索語として与えた場合を考える。検索語と文書の間で単純に文字列照合を行ったのでは、目的の人物について記述している文書のほかに、その同姓同名人物に関する文書まで検索されてしまう。これに対する単純な解決方法は、検索された文書を別人ごとにクラスタリングして提示することである。このタスクは、自然言語処理において広く議論さている多義性解消(Word Sense Disambig uation)の一種であると考えることができる。これまで自然言語処理の分野では、タグ付きコーパスを利用した教師有り手法や、国語辞典の定義文に基づく手法が多義性解消のために提案されている。しかし、こうした手法は同姓同名問題には直接適用できない。なぜなら,検索されるような人物名を網羅したようなタグ付きコーパスや国語辞典は存在しないからである。そこで我々はwikipediaという辞書に着目した。wikipediaに記載される情報は不特定多数のユーザが協力して更新されていて、既存の辞書とは異なり即時性や網羅性が高い。そのため、検索されるような人物名に関する記述も豊富であることが期待できる。本論文ではwikipediaという新しい言語資源の同姓同名問題における有効性を検証する実験を行なったのでその報告を行なう。多義性解消の手法には、wikipediaに記載されているテキストの特徴単語を用いるという、ベースライン的な手法を用いた。17の人物名を用いて, 1736件のウェブ文書に対する実験を行った結果、wikipediaに記載されている情報は同姓同名問題に有効であることが確認できた。 | |||||
書誌情報 | 発行日 2007-02-02 | |||||
日本十進分類法 | ||||||
主題Scheme | NDC | |||||
主題 | 007 | |||||
学位名 | ||||||
学位名 | 修士(情報理工学) | |||||
学位 | ||||||
値 | master | |||||
研究科・専攻 | ||||||
値 | 情報理工学系研究科電子情報学専攻 | |||||
学位授与年月日 | ||||||
学位授与年月日 | 2007-03-22 |