japan.internet.comThe Internet & IT Network
Twitter
RSS
  • ニュース
  • コラム
  • リサーチ
  • ヘッドライン
  • 特集
  • ブログ
  • プレスリリース
  • 専門チャンネル
  • イベント
  • ランキング
  • ニュースメール
2009年11月7日
文字サイズ文字サイズ小文字サイズ中文字サイズ大
任天堂が、大画面の「ニンテンドーDSi LL」を発表。欲しいと思いますか?
欲しい
欲しいと思わない
他のDS製品を持っているが欲しい
他のDS製品を持っているのでいらない
投票締切 11/9 12:00
Webテクノロジー2007年9月5日 09:00

データを分析する手法の分類

国内国内internet.com発の記事
  • Post to Twitter
  • Post to Facebook
  • このエントリーを含むはてなブックマーク
  • この記事をクリップ!
  • Buzzurlにブックマーク
  • Yahoo!ブックマークに登録
  • newsing it!
  • この記事をokyuuへインポート
ちょっとというか結構間が空いてしまいました。いいわけついでに四方山話。このコラムの執筆者である私はシリコン ヴァレーと日本に拠点を持って生活しています。最近、私の会社ではヴェトナムにも拠点を作る活動を始めました。

ソフトウェア開発はグローバルになっています。アイデアが生まれる場所としてのシリコン ヴァレー、知的生産拠点としてのインド、中国、ヴェトナムなど、インターネットの張り巡らされた世界をソフトウェア生産の現場として考えると日本の役割は需要のある場所であって、供給のサイドからは遠ざかっているかのようです。私は日本もシリコン ヴァレーのようにアイデアを生み出す役割を担うべきだと思っています。

[検索]

若干、抽象的な話の展開になります。データの多くが構造化されていない非定型である、というのがこのコラムでわたしたちの考察しているシステムです。このデータに対しては少なくとも検索を行うことはできます。データを文字の羅列と考えて、非常にシンプルに完全一致する、もしくはパターンにマッチする文字列を検索するというやり方です。

とにかくすべてのデータを毎回の検索リクエストに対して検索してしまうのは効率が悪いので、インデックスをあらかじめ作っておきます。文書をデータの羅列と捉える場合にも N-Gram のような方法で有効なインデックスを作ることができます。

[意味]

文書に対してその意味を何らかの形で分析してインデックスに用いたり、結果表示に使うことができます。検索結果を表示する際に有用なものが先に表示されるようになっていると、使い勝手が良くなります。意味を解釈するというのは非常に困難なテーマであって、そもそも人間の解釈している意味とはなんなのか?といったことも厳密に計算機上に定義できるほどはっきりとはしていません。

したがって、哲学的な意味論ではなく形式的に意味を解釈した人間の行動を模倣することになります。文章の形態素解析やキーワードの出現頻度による TF-IDF 法などをこの手法に分類します。

[参照]

文書単体でなく、その外部参照の状況を考慮に入れて評価することが Hyperlink をもつ文書群に対しては可能になります。Page Rank や関連文書に対する Recommendation など、 Web 技術とともに発展してきたネットワーク解析的な手法がこれにあたります。複雑ネットワークは一般的に非常に難解な振る舞いをするために予言的成果をだすのが困難です。

しかし困難さは技術者、学者にとって魅力の源泉になるのでこの分野は面白いともいえます。数学的な手法がとられると非常に有効な結果をもたらすことがあります。マルコフ チェインを応用した Page Rank が Google の検索に応用されたことが代表的なものです。

[副次的なデータやタグの追加]

文書が semantic(意味)をあらわすタグを持っていれば、文書の属性を意図的に作成できます。このタグの定義や妥当性に関して考えることは非定型データをより一層構造化されたデータへ近づける努力です。したがって、文書を大量に生成し事後的に意味を分析する我々の考察している手法というより、分析を先に行い、それに基づいて文書を生成・分類していく方法に近いわけです。

ある意味、中間的な手法を semantic documents に対して行うというのは有効なアプローチの可能性があります。例えば、ラベルによる分類などはシステム稼動後に用意できるタグを文書に対してアサインすることで非定型データの特徴を失わないで semantic を付与することになります。

[確率的な手法]

すでに上に挙げたマルコフ連鎖も確率論的なアプローチといえますが、複雑系の分析に関して確率論的手法は有効と思われます。あまり使われている例を知りませんが例えば確率論的な巨大文書データベースへのアプローチでもいろいろ簡単に考え付くものがあります。なんらかの形でリンクされた文書のネットワークに関してランダムウォーク的な recommendation を行ったり、近い分類にもかかわらず直接リンクがない文書間に一定確率でリンクを張ったりする摂動的要素をつけてみたり。いろいろ自然科学に対する確率論の寄与から取り扱うべき手法があると、私は信じています。

[その他]

データの分析はいわば研究者にとっておもちゃ箱です。画期的な手法で有効な成果を得られればそれは学問としても進展があるでしょう。今回のコラムの前書きにも述べたように、日本も知的生産に関するアイデア創出の場所という役割を担うとすれば、こういったおもちゃ箱にはもっと多くの日本人研究者や起業家が積極的に取り組むとよいと思います。


関連テーマ
  • プリンター用
  • 記事を転送
  • Post to Twitter
  • Post to Facebook
  • このエントリーを含むはてなブックマーク
  • この記事をクリップ!
  • BuzzurlにブックマークBuzzurlにブックマーク
  • Yahoo!ブックマークに登録
  • newsing it!
  • この記事をokyuuへインポート
最新トップニュース
プライバシー ジャパン・インターネットコム版
【プライバシー ジャパン・インターネットコム版】
認証がオンラインビジネスの鍵である理由(11月4日)
Copyright 2009 Japan Internet.com K.K. All Rights Reserved.http://www.internet.com/