WEKO3
アイテム
言語横断的なWebニュース記事の関連付け
http://hdl.handle.net/2261/28813
http://hdl.handle.net/2261/28813ec48ef19-75d0-48cf-9717-123f30fa2ab7
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
|
Item type | 学位論文 / Thesis or Dissertation(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2011-08-08 | |||||
タイトル | ||||||
タイトル | 言語横断的なWebニュース記事の関連付け | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | web news | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | cross-lingual | |||||
資源タイプ | ||||||
資源 | http://purl.org/coar/resource_type/c_46ec | |||||
タイプ | thesis | |||||
その他のタイトル | ||||||
その他のタイトル | Cross-Lingual Linking of Web News Articles | |||||
著者 |
吉田, 慎一郎
× 吉田, 慎一郎 |
|||||
著者所属 | ||||||
著者所属 | 大学院情報理工学系研究科電子情報学専攻 | |||||
著者所属 | ||||||
著者所属 | Graduate School of Information Science and Technology Department of Information and Communication Engineering The University of Tokyo | |||||
Abstract | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | インターネットの普及と情報通信技術の発展に伴い、今では個人でも世界中のWebニュースサイトにアクセスして世界中で報道されているWebニュースを手に入れられることができるようになった。そのため、例えばある事件や事故についての報道がされているニュースを単純に集めてきたり、そこからニュースサイトごとに違った見方で報道されているのではないか、といったようにあるニュースを多角的に調べる、といったことが可能になってきている。それらの調査に、世界中のニュースを集めてきて、それらを体系的に事件や事故、トピックといったものでニュースを関連付けしておいて、必要なときに必要なニュースだけを取り出したいという需要が生じてきている。しかし、世界中のニュースを扱って処理するには、世界で使われている言語についての文法や単語の意味といった言語情報が必要となってくる。それらの情報を言語ごとに集めてきて使用するには大変手間がかかるものである。そこで、本論文では、Webニュースを関連付ける手掛かりとして、まずは複数言語でニュースを提供しているサイトを対象とし、そのサイトにおいてニュースカテゴリとニュース記事を抽出するラッパーの作成とニュースカテゴリの対応からカテゴリごとにニュース記事を対応付けさせ、ニュース記事の対応付けには、言語情報をほとんど用いないことを前提として、単純なスペースかn-gramによる単語区切りと、オンライン百科事典として有名であり誰でも使えるWikipediaを用いた単語判定と他言語への翻訳を用いた手法を提案する。本研究の手法では、使用した言語情報はWebページの言語がどの言語であるかということと単語の区切りがスペースかそうでないかであることだけであり、ある程度のニュースの関連付けを確認できた。 | |||||
書誌情報 | 発行日 2008-03 | |||||
日本十進分類法 | ||||||
主題Scheme | NDC | |||||
主題 | 548 | |||||
学位名 | ||||||
学位名 | 修士(情報理工学) | |||||
学位 | ||||||
値 | master | |||||
研究科・専攻 | ||||||
情報理工学系研究科電子情報学専攻 | ||||||
学位授与年月日 | ||||||
学位授与年月日 | 2008-03-24 |