2024-03-29T13:23:17Z
https://repository.dl.itc.u-tokyo.ac.jp/oai
oai:repository.dl.itc.u-tokyo.ac.jp:00000423
2022-12-19T03:41:19Z
34:105:106
9:10:15
Acquiring Polar Sentences from HTML Documents
HTML文書集合からの評価文の自動収集
鍜治, 伸裕
106393
喜連川, 優
106394
007
評価情報分析
評価極性
Sentiment Analysis
Polarity
Semantic Orientation
application/pdf
本論文では大規模なHTMI」文書集合から評価文を自動収集する手法を提案する.基本的なアイデアは「定型文」「箇条書き」「表」といった記述形式を利用するというものである.本手法に必要なのは少数の規則だけであるため,人手をほとんどかけずに評価文を収集することが可能である.また,任意のHTML文書に適用できる手法であるため,様々なドメインの評価文を収集できることが期待される.実験では,提案手法を約10億件のHTML文書に適用したところ,約65万の評価文を獲得することができた.
This paper represents a method of acquiring polar sentences from HTML documents. The basic idea is to exploit three lexico-syntactic patterns and two layout structures of HTML documents. The method requires only a small amount of hand-crafted rules and can be implemented in low cost. In our experiment, the method was applied to one billion documents and 650 thouthands polar sentences were aquired.
journal article
言語処理学会
2008-07
application/pdf
自然言語処理
3
15
77
90
AN10472659
13407619
https://repository.dl.itc.u-tokyo.ac.jp/record/423/files/v15n3_05.pdf
jpn