日立、文書をキーとする大規模 DB 検索エンジン株式会社日立製作所中央研究所は2002年8月23日、
国立情報学研究所と共同で、
1千万件規模の大規模文書 DB から文書をキーとした関連文書の検索ができる文書検索エンジンを開発した、
と発表している。
大規模な文書 DB を持つ特許や科学技術文献の検索用に期待される。 この研究は、 経済産業省所管の特別認可法人、 情報処理振興事業協会(IPA)の2001年度「独創 的情報技術育成事業」の一環として実施され、 検索エンジンの開発には、 東京工業大学、北陸先端科学技術大学院大学、国文学研究資料館が協力した。 知的財産権や科学技術の分野では高い精度での文書検索が要求されているが、 従来のキーワード検索ではキーワードの組合わせで検索結果が異なり、 重要な文書が検索されないという不安があった。 また、 従来技術で文書や文献をそのまま「キー文書」として検索すると計算量があまりに大きすぎ、 実用に耐える速度で検索できる DB は数万件規模だった。 今回開発された文書検索エンジンは、 キー文書に含まれる特徴的な単語を自動選出し、 出現頻度や単語同士の関連性などの牽引データを使った連想計算を行う連想検索方式を採用した。 さらに、 検索で使う索引データを最大限に圧縮、 新聞1年分の10万〜20万件規模の DB でも、PC 上で利用できるようにした。 さらに、1千万規模の DB に対応するために、 PC クラスタ上で動作できる「分散処理型」の連想検索エンジンを開発、 DB 規模に応じてシステム規模を拡張、大規模データ検索ができるようにした。 PC を8台〜16台接続して PC クラスタを構築すると、 1千万件規模の文書 DB で連想検索を行うことができる。 この連想検索技術エンジンは、 IPA がインターネット上で無償公開している。 連想検索エンジンはすでに、 東京大学医科学研究所・ヒトゲノム解析センターの 「分子生物学関連データベース」の検索エンジンとして利用されている。 関連記事 関連テーマ 最新トップニュース
|
|