|
今年も各携帯キャリアが冬モデルを発表!買う予定はありますか?
|
沖電気、NICT と Web ページからの新語獲得技術を開発独立行政法人情報通信研究機構(NICT)と沖電気工業株式会社は2005年7月21日、
Web ページから新語を獲得して属性を判別する技術を共同開発した、
と発表した。
今回開発された技術は、 大量の Web ページに対して、 文を文法的に意味のある最小の単位、 形態素に分割して品詞情報を付与する形態素解析を行い、 文中の形態素列の頻度と、 その前後の形態素の異なり数とを指標とした関数を用いて用語を獲得するもの。 名詞のみで構成される用語だけでなく、 助詞などを含む用語も獲得できる。 さらに固有表現抽出や既存辞書とのマッチングを行って用語を構成する形態素に素性を割り当て、 その情報を利用して用語全体の属性を判別する。 形態素に素性を割り当てられない場合にも、 その形態素の用語全体に対する影響を考慮して属性を推定できる。 さらに、実システムへの導入を考慮して処理を高速化、 テキストで 200MB の収集済み Web ページ(約1億文字、2年分の新聞記事に相当)を、 平均1日で処理、用語を獲得する。 これにより、 従来は追加が困難だった最新用語を、 高速で Web ページから獲得・判別できるようになる。 この技術は、 NICT けいはんな情報通信オープンラボにおける、 沖電気と NICT の共同研究の成果。 関連記事 最新トップニュース
|
japan.internet.com 10周年記念
インターネットコムマーケティングセミナー ROI を最適化するパフォーマンスマーケティングの最前線 【12/16(水)13時〜 東京・赤坂】 申込はコチラ>>
|