|
ニュース検索
ピックアップ
今週のIT求人情報
|
沖電気、NICT と Web ページからの新語獲得技術を開発独立行政法人情報通信研究機構(NICT)と沖電気工業株式会社は2005年7月21日、
Web ページから新語を獲得して属性を判別する技術を共同開発した、
と発表した。
今回開発された技術は、 大量の Web ページに対して、 文を文法的に意味のある最小の単位、 形態素に分割して品詞情報を付与する形態素解析を行い、 文中の形態素列の頻度と、 その前後の形態素の異なり数とを指標とした関数を用いて用語を獲得するもの。 名詞のみで構成される用語だけでなく、 助詞などを含む用語も獲得できる。 さらに固有表現抽出や既存辞書とのマッチングを行って用語を構成する形態素に素性を割り当て、 その情報を利用して用語全体の属性を判別する。 形態素に素性を割り当てられない場合にも、 その形態素の用語全体に対する影響を考慮して属性を推定できる。 さらに、実システムへの導入を考慮して処理を高速化、 テキストで 200MB の収集済み Web ページ(約1億文字、2年分の新聞記事に相当)を、 平均1日で処理、用語を獲得する。 これにより、 従来は追加が困難だった最新用語を、 高速で Web ページから獲得・判別できるようになる。 この技術は、 NICT けいはんな情報通信オープンラボにおける、 沖電気と NICT の共同研究の成果。 関連記事
新着ニュース・コラム ホワイトペーパー
|
注目のトピックス 話題の記事
企業の約4割がいまでも IE 6 以前のブラウザを利用 ― Web 広告研究会調査
SNS「非モテ+」、バレンタイン関連ワード投稿を禁止に
Android アプリを美しくみせる UI デザイン10のヒント
新聞広告が動く!--11日の読売新聞朝刊に、AR を応用したドコモなどの広告
イギリス人は年間11キロのチョコを食べている―トリップアドバイザー「世界のチョコレート消費量」を公開
⇒一覧を見る
アクセスランキング
最新コラム一覧
|
||||||||||||||||||||