japan.internet.comThe Internet & IT Network
RSS
  • ニュース
  • コラム
  • リサーチ
  • ヘッドライン
  • 特集
  • ブログ
  • プレスリリース
  • 専門チャンネル
  • イベント
  • ランキング
  • ニュースメール
2009年7月4日
文字サイズ文字サイズ小文字サイズ中文字サイズ大
Webテクノロジー2007年9月5日 09:00

データを分析する手法の分類

国内国内internet.com発の記事
  • このエントリーを含むはてなブックマーク
  • この記事をクリップ!
  • Buzzurlにブックマーク
  • Yahoo!ブックマークに登録
  • newsing it!
  • この記事をokyuuへインポート
ちょっとというか結構間が空いてしまいました。いいわけついでに四方山話。このコラムの執筆者である私はシリコン ヴァレーと日本に拠点を持って生活しています。最近、私の会社ではヴェトナムにも拠点を作る活動を始めました。

ソフトウェア開発はグローバルになっています。アイデアが生まれる場所としてのシリコン ヴァレー、知的生産拠点としてのインド、中国、ヴェトナムなど、インターネットの張り巡らされた世界をソフトウェア生産の現場として考えると日本の役割は需要のある場所であって、供給のサイドからは遠ざかっているかのようです。私は日本もシリコン ヴァレーのようにアイデアを生み出す役割を担うべきだと思っています。

[検索]

若干、抽象的な話の展開になります。データの多くが構造化されていない非定型である、というのがこのコラムでわたしたちの考察しているシステムです。このデータに対しては少なくとも検索を行うことはできます。データを文字の羅列と考えて、非常にシンプルに完全一致する、もしくはパターンにマッチする文字列を検索するというやり方です。

とにかくすべてのデータを毎回の検索リクエストに対して検索してしまうのは効率が悪いので、インデックスをあらかじめ作っておきます。文書をデータの羅列と捉える場合にも N-Gram のような方法で有効なインデックスを作ることができます。

[意味]

文書に対してその意味を何らかの形で分析してインデックスに用いたり、結果表示に使うことができます。検索結果を表示する際に有用なものが先に表示されるようになっていると、使い勝手が良くなります。意味を解釈するというのは非常に困難なテーマであって、そもそも人間の解釈している意味とはなんなのか?といったことも厳密に計算機上に定義できるほどはっきりとはしていません。

したがって、哲学的な意味論ではなく形式的に意味を解釈した人間の行動を模倣することになります。文章の形態素解析やキーワードの出現頻度による TF-IDF 法などをこの手法に分類します。

[参照]

文書単体でなく、その外部参照の状況を考慮に入れて評価することが Hyperlink をもつ文書群に対しては可能になります。Page Rank や関連文書に対する Recommendation など、 Web 技術とともに発展してきたネットワーク解析的な手法がこれにあたります。複雑ネットワークは一般的に非常に難解な振る舞いをするために予言的成果をだすのが困難です。

しかし困難さは技術者、学者にとって魅力の源泉になるのでこの分野は面白いともいえます。数学的な手法がとられると非常に有効な結果をもたらすことがあります。マルコフ チェインを応用した Page Rank が Google の検索に応用されたことが代表的なものです。

[副次的なデータやタグの追加]

文書が semantic(意味)をあらわすタグを持っていれば、文書の属性を意図的に作成できます。このタグの定義や妥当性に関して考えることは非定型データをより一層構造化されたデータへ近づける努力です。したがって、文書を大量に生成し事後的に意味を分析する我々の考察している手法というより、分析を先に行い、それに基づいて文書を生成・分類していく方法に近いわけです。

ある意味、中間的な手法を semantic documents に対して行うというのは有効なアプローチの可能性があります。例えば、ラベルによる分類などはシステム稼動後に用意できるタグを文書に対してアサインすることで非定型データの特徴を失わないで semantic を付与することになります。

[確率的な手法]

すでに上に挙げたマルコフ連鎖も確率論的なアプローチといえますが、複雑系の分析に関して確率論的手法は有効と思われます。あまり使われている例を知りませんが例えば確率論的な巨大文書データベースへのアプローチでもいろいろ簡単に考え付くものがあります。なんらかの形でリンクされた文書のネットワークに関してランダムウォーク的な recommendation を行ったり、近い分類にもかかわらず直接リンクがない文書間に一定確率でリンクを張ったりする摂動的要素をつけてみたり。いろいろ自然科学に対する確率論の寄与から取り扱うべき手法があると、私は信じています。

[その他]

データの分析はいわば研究者にとっておもちゃ箱です。画期的な手法で有効な成果を得られればそれは学問としても進展があるでしょう。今回のコラムの前書きにも述べたように、日本も知的生産に関するアイデア創出の場所という役割を担うとすれば、こういったおもちゃ箱にはもっと多くの日本人研究者や起業家が積極的に取り組むとよいと思います。


関連テーマ
このエントリーを含むはてなブックマーク この記事をクリップ!
BuzzurlにブックマークBuzzurlにブックマーク Yahoo!ブックマークに登録
この記事をokyuuへインポート
最新トップニュース
データメーション
【データメーション】
中国が「Green Dam」フィルタ規制を撤回(7月1日)
Graphic Design Forum
【Graphic Design Forum】
Chris Dickman(6月25日)
プライバシー ジャパン・インターネットコム版
【プライバシー ジャパン・インターネットコム版】
グーグル・ストリートビューの問題について総務省の見解(6月23日)
エンジニアの独り言
【エンジニアの独り言】
システムを「使う」時代のエンジニアに求められるもの(6月2日)
最新ハイテク講座
最新ハイテク講座
電気は家庭でつくる時代へ!燃料電池「エネファーム」(7月3日)
アクセス解析で見るWebマーケティング
アクセス解析で見るWebマーケティング
決定力を探るアクセス解析(7月3日)
百式のネットビジネス研究
百式のネットビジネス研究
ファーストフードを高級っぽく盛り付けて紹介している「Fancy Fast Food」(7月3日)
週刊-サイト別アクセス状況データ
週刊-サイト別アクセス状況データ
ビデオリサーチインタラクティブ調査(月間インターネットオーディエンスデータ)(7月2日)
成約率、反応率を上げる Web 文章術
成約率、反応率を上げる Web 文章術
言葉がダイレクトにキャッシュを生む(7月2日)
不況時代の Web ビジネス最適化講座
不況時代の Web ビジネス最適化講座
アクセス解析エキスパートここだけの話、Web コンシェルジュの“勉強法”こっそり教えます(7月2日)
「Webからの脅威」―その傾向と最新対策
「Webからの脅威」―その傾向と最新対策
不正プログラムの分類(7月1日)
DevX
DevX
JavaScriptとDOMによる動的なWebページの作成(6月30日)
エンジニア転職ノウハウ開発室
エンジニア転職ノウハウ開発室
今のままで大丈夫?3匹の子ブタ的キャリア危険度診断(6月30日)
アイレップの SEM フロンティア
アイレップの SEM フロンティア
Web サイトは「無駄な穴のたくさん開いたじょうご」〜サイト成果向上の基本的な考え方(6月30日)
Copyright 2009 Japan Internet.com K.K. All Rights Reserved.http://www.internet.com/