japan.internet.comThe Internet & IT Network
Twitter
RSS
  • ニュース
  • コラム
  • リサーチ
  • ヘッドライン
  • 特集
  • ブログ
  • プレスリリース
  • 専門チャンネル
  • イベント
  • ランキング
  • ニュースメール
2009年11月7日
文字サイズ文字サイズ小文字サイズ中文字サイズ大
任天堂が、大画面の「ニンテンドーDSi LL」を発表。欲しいと思いますか?
欲しい
欲しいと思わない
他のDS製品を持っているが欲しい
他のDS製品を持っているのでいらない
投票締切 11/9 12:00
Webテクノロジー2005年7月21日 17:00

沖電気、NICT と Web ページからの新語獲得技術を開発

国内国内internet.com発の記事
  • Post to Twitter
  • Post to Facebook
  • このエントリーを含むはてなブックマーク
  • この記事をクリップ!
  • Buzzurlにブックマーク
  • Yahoo!ブックマークに登録
  • newsing it!
  • この記事をokyuuへインポート
独立行政法人情報通信研究機構(NICT)と沖電気工業株式会社は2005年7月21日、 Web ページから新語を獲得して属性を判別する技術を共同開発した、 と発表した。

今回開発された技術は、 大量の Web ページに対して、 文を文法的に意味のある最小の単位、 形態素に分割して品詞情報を付与する形態素解析を行い、 文中の形態素列の頻度と、 その前後の形態素の異なり数とを指標とした関数を用いて用語を獲得するもの。

名詞のみで構成される用語だけでなく、 助詞などを含む用語も獲得できる。 さらに固有表現抽出や既存辞書とのマッチングを行って用語を構成する形態素に素性を割り当て、 その情報を利用して用語全体の属性を判別する。

形態素に素性を割り当てられない場合にも、 その形態素の用語全体に対する影響を考慮して属性を推定できる。

さらに、実システムへの導入を考慮して処理を高速化、 テキストで 200MB の収集済み Web ページ(約1億文字、2年分の新聞記事に相当)を、 平均1日で処理、用語を獲得する。

これにより、 従来は追加が困難だった最新用語を、 高速で Web ページから獲得・判別できるようになる。

この技術は、 NICT けいはんな情報通信オープンラボにおける、 沖電気と NICT の共同研究の成果。

  • プリンター用
  • 記事を転送
  • Post to Twitter
  • Post to Facebook
  • このエントリーを含むはてなブックマーク
  • この記事をクリップ!
  • BuzzurlにブックマークBuzzurlにブックマーク
  • Yahoo!ブックマークに登録
  • newsing it!
  • この記事をokyuuへインポート
最新トップニュース
プライバシー ジャパン・インターネットコム版
【プライバシー ジャパン・インターネットコム版】
認証がオンラインビジネスの鍵である理由(11月4日)
Copyright 2009 Japan Internet.com K.K. All Rights Reserved.http://www.internet.com/