2024-03-29T00:50:35Z
https://repository.dl.itc.u-tokyo.ac.jp/oai
oai:repository.dl.itc.u-tokyo.ac.jp:00001891
2022-12-19T03:43:25Z
34:105:262
9:233:234
Cross-Lingual Linking of Web News Articles
言語横断的なWebニュース記事の関連付け
吉田, 慎一郎
5732
548
web news
cross-lingual
修士(情報理工学)
インターネットの普及と情報通信技術の発展に伴い、今では個人でも世界中のWebニュースサイトにアクセスして世界中で報道されているWebニュースを手に入れられることができるようになった。そのため、例えばある事件や事故についての報道がされているニュースを単純に集めてきたり、そこからニュースサイトごとに違った見方で報道されているのではないか、といったようにあるニュースを多角的に調べる、といったことが可能になってきている。それらの調査に、世界中のニュースを集めてきて、それらを体系的に事件や事故、トピックといったものでニュースを関連付けしておいて、必要なときに必要なニュースだけを取り出したいという需要が生じてきている。しかし、世界中のニュースを扱って処理するには、世界で使われている言語についての文法や単語の意味といった言語情報が必要となってくる。それらの情報を言語ごとに集めてきて使用するには大変手間がかかるものである。そこで、本論文では、Webニュースを関連付ける手掛かりとして、まずは複数言語でニュースを提供しているサイトを対象とし、そのサイトにおいてニュースカテゴリとニュース記事を抽出するラッパーの作成とニュースカテゴリの対応からカテゴリごとにニュース記事を対応付けさせ、ニュース記事の対応付けには、言語情報をほとんど用いないことを前提として、単純なスペースかn-gramによる単語区切りと、オンライン百科事典として有名であり誰でも使えるWikipediaを用いた単語判定と他言語への翻訳を用いた手法を提案する。本研究の手法では、使用した言語情報はWebページの言語がどの言語であるかということと単語の区切りがスペースかそうでないかであることだけであり、ある程度のニュースの関連付けを確認できた。
thesis
2008-03
2008-03-24
application/pdf
https://repository.dl.itc.u-tokyo.ac.jp/record/1891/files/48066446.pdf
jpn