WEKO3
アイテム
文書情報を利用したP2P情報検索の効率化に関する研究
http://hdl.handle.net/2261/28796
http://hdl.handle.net/2261/28796be092e92-6878-410f-bdfd-8b594571de49
名前 / ファイル | ライセンス | アクション |
---|---|---|
48066418.pdf (6.1 MB)
|
|
Item type | 学位論文 / Thesis or Dissertation(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2011-08-08 | |||||
タイトル | ||||||
タイトル | 文書情報を利用したP2P情報検索の効率化に関する研究 | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題 | Peer-to-Peer | |||||
主題Scheme | Other | |||||
キーワード | ||||||
主題 | 情報検索 | |||||
主題Scheme | Other | |||||
キーワード | ||||||
主題 | 索引構造 | |||||
主題Scheme | Other | |||||
キーワード | ||||||
主題 | データ配置 | |||||
主題Scheme | Other | |||||
資源タイプ | ||||||
資源 | http://purl.org/coar/resource_type/c_46ec | |||||
タイプ | thesis | |||||
その他のタイトル | ||||||
その他のタイトル | A Study to Improve Peer-to-Peer Information Retrieval Schemes Using Document Features | |||||
著者 |
倉沢, 央
× 倉沢, 央 |
|||||
著者所属 | ||||||
著者所属 | 大学院情報理工学系研究科電子情報学専攻 | |||||
著者所属 | ||||||
著者所属 | Graduate School of Information Science and Technology Department of Information and Communication Engineering The University of Tokyo | |||||
Abstract | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 膨大な情報を効率よく扱うため,検索システムが広く一般的に使われている.検索システムの多くは集中型のアーキテクチャで構築されている.この集中型のアーキテクチャは容易に構築でき,さらに情報を集中管理できる.そのため,小規模なシステムやデータマイニングを伴うシステムに集中型のアーキテクチャは適している.しかしながら,検索システムの規模が大きくなるにつれ,スケーラビリティやシステム管理コストの面で集中型の検索システムを運営することは困難になっていく.大規模検索システムの構築や運営には,負荷分散についての専門知識や,膨大なコンピューティング資源,豊富な資本力が必要となるからである. これらの問題を解決できる手法として,分散型のアーキテクチャが注目を浴びている.分散型のアーキテクチャは,大規模システムへの対応だけでなく,余剰コンピューティング資源の有効活用やシステムの柔軟性の確保の点でも期待されている.これまでの研究で,分散型検索システムの検索精度を集中型とほぼ同等となる手法が提案されている.しかし,分散型検索システムにおける索引構築コストや検索実行時のコストが未だボトルネックとなっている.筆者はP2P情報検索を実用的なものにすべく,これら問題を解決する索引構造とデータ配置法に関する2つの手法を提案する. 1つめの手法はHuffman-DHTである. Huffman-DHTは筆者の提案するP2P情報検索のための新たな索引構造である. Huffman-DHTは索引登録時のホットスポットを解消し,さらに索引構築に伴う探索コストを低減することを目的とする.これを実現するため,登録頻度の高い一部の単語の索引が索引構築コストの大部分を占めているというZipfの法則に基づいた特徴を利用し,Huffman-DHTでは出現確率の高い単語に対してID空間で広い領域を割り当てる. ID空間の分割には,符号理論のHuffman符号を採用した. Huffman-DHTを用いることで,索引構築の際の被アクセス数をノード間で分散できる.さらに,通常の索引では単語の索引を保持するノードを探すのにその単語の出現確率に関わらず O(log n) のホップ数が必要となるところを,登録頻度の高い単語の索引ほど少ないホップ数で探せられる. もう1つの手法はConcordiaである. Concordiaは筆者の提案するP2P情報検索のための新たなデータ配置手法である. Concordiaは,P2P情報検索においてP2Pネットワークからユーザの検索問い合わせに適合する文書を効率良く高速に収集することを目的とする.これを実現するため,Concordiaでは文書データの配置場所を検索時に索引参照のために接続する場所と関連づける.つまり,文書と関連度の高い索引を管理するノードに文書データを配置する.その関連度の計算には文書中の各単語の重みを用いる. Concordiaを用いることで,問い合わせに適合する文書ほど収集が容易となり,P2P情報検索の実行時間を削減できる. 本論文ではこれら2つの手法について述べる.筆者は分散型検索における課題を克服し,実用的なものにすることを研究目標と据えている. | |||||
書誌情報 | 発行日 2008-03 | |||||
日本十進分類法 | ||||||
主題 | 548 | |||||
主題Scheme | NDC | |||||
学位名 | ||||||
学位名 | 修士(情報理工学) | |||||
学位 | ||||||
値 | master | |||||
研究科・専攻 | ||||||
情報理工学系研究科電子情報学専攻 | ||||||
学位授与年月日 | ||||||
学位授与年月日 | 2008-03-24 |