japan.internet.com The Internet & IT Network


RSSニュース検索
カテゴリ
> トップページ
> Webビジネス
> Eコマース
> Webファイナンス
> Webマーケティング
> パブリック
> Webテクノロジー
> 携帯・ワイヤレス
> Linux Today
> Linux Tutorial
> J.I.C.ブログ
キャリア
> 転職ならen
> 派遣ならen
> アルバイトならen
> IT求人情報
ヘッドライン
> 今日のヘッドライン
> 週間ヘッドライン
Special Link
> ロレックス
> フォトコミュニティ
> ストックフォト
> クリップアート
> イラスト
> フェリカ
> Web2.0
イベント&セミナー
> イベントカレンダー
> 書評「IT の耳」
> 出張・接待検索
> ニュースガジェット 注目
無料ニュースメール
> 新規登録
> 変更・解除
> オプトインメールの登録・変更・解除
インフォメーション
> パートナーサイト
転職ならエン
就職ならen
求人ならen
履歴書ならen
アルバイトならエン
CRM/SFAならオラクル
> グループ会社
株式会社アエリア
(株)サンゼロミニッツ
株式会社エアネット
> お問い合わせ
> 広告掲載について
> リンクについて
> 著作権について
> その他お問い合わせ
> 利用規約
> 個人情報保護方針
> 会社概要地図
Webテクノロジー 2007年9月5日 09:00
Webテクノロジー・バックナンバー
データを分析する手法の分類

著者: 小松宏行 プリンター用 記事を転送
2007年9月5日 09:00 付の記事
国内internet.com発の記事
このエントリーを含むはてなブックマーク この記事をクリップ! Buzzurlにブックマーク Yahoo!ブックマークに登録 newsing it!

ちょっとというか結構間が空いてしまいました。いいわけついでに四方山話。このコラムの執筆者である私はシリコン ヴァレーと日本に拠点を持って生活しています。最近、私の会社ではヴェトナムにも拠点を作る活動を始めました。

ソフトウェア開発はグローバルになっています。アイデアが生まれる場所としてのシリコン ヴァレー、知的生産拠点としてのインド、中国、ヴェトナムなど、インターネットの張り巡らされた世界をソフトウェア生産の現場として考えると日本の役割は需要のある場所であって、供給のサイドからは遠ざかっているかのようです。私は日本もシリコン ヴァレーのようにアイデアを生み出す役割を担うべきだと思っています。

[検索]

若干、抽象的な話の展開になります。データの多くが構造化されていない非定型である、というのがこのコラムでわたしたちの考察しているシステムです。このデータに対しては少なくとも検索を行うことはできます。データを文字の羅列と考えて、非常にシンプルに完全一致する、もしくはパターンにマッチする文字列を検索するというやり方です。

とにかくすべてのデータを毎回の検索リクエストに対して検索してしまうのは効率が悪いので、インデックスをあらかじめ作っておきます。文書をデータの羅列と捉える場合にも N-Gram のような方法で有効なインデックスを作ることができます。

[意味]

文書に対してその意味を何らかの形で分析してインデックスに用いたり、結果表示に使うことができます。検索結果を表示する際に有用なものが先に表示されるようになっていると、使い勝手が良くなります。意味を解釈するというのは非常に困難なテーマであって、そもそも人間の解釈している意味とはなんなのか?といったことも厳密に計算機上に定義できるほどはっきりとはしていません。

したがって、哲学的な意味論ではなく形式的に意味を解釈した人間の行動を模倣することになります。文章の形態素解析やキーワードの出現頻度による TF-IDF 法などをこの手法に分類します。

[参照]

文書単体でなく、その外部参照の状況を考慮に入れて評価することが Hyperlink をもつ文書群に対しては可能になります。Page Rank や関連文書に対する Recommendation など、 Web 技術とともに発展してきたネットワーク解析的な手法がこれにあたります。複雑ネットワークは一般的に非常に難解な振る舞いをするために予言的成果をだすのが困難です。

しかし困難さは技術者、学者にとって魅力の源泉になるのでこの分野は面白いともいえます。数学的な手法がとられると非常に有効な結果をもたらすことがあります。マルコフ チェインを応用した Page Rank が Google の検索に応用されたことが代表的なものです。

[副次的なデータやタグの追加]

文書が semantic(意味)をあらわすタグを持っていれば、文書の属性を意図的に作成できます。このタグの定義や妥当性に関して考えることは非定型データをより一層構造化されたデータへ近づける努力です。したがって、文書を大量に生成し事後的に意味を分析する我々の考察している手法というより、分析を先に行い、それに基づいて文書を生成・分類していく方法に近いわけです。

ある意味、中間的な手法を semantic documents に対して行うというのは有効なアプローチの可能性があります。例えば、ラベルによる分類などはシステム稼動後に用意できるタグを文書に対してアサインすることで非定型データの特徴を失わないで semantic を付与することになります。

[確率的な手法]

すでに上に挙げたマルコフ連鎖も確率論的なアプローチといえますが、複雑系の分析に関して確率論的手法は有効と思われます。あまり使われている例を知りませんが例えば確率論的な巨大文書データベースへのアプローチでもいろいろ簡単に考え付くものがあります。なんらかの形でリンクされた文書のネットワークに関してランダムウォーク的な recommendation を行ったり、近い分類にもかかわらず直接リンクがない文書間に一定確率でリンクを張ったりする摂動的要素をつけてみたり。いろいろ自然科学に対する確率論の寄与から取り扱うべき手法があると、私は信じています。

[その他]

データの分析はいわば研究者にとっておもちゃ箱です。画期的な手法で有効な成果を得られればそれは学問としても進展があるでしょう。今回のコラムの前書きにも述べたように、日本も知的生産に関するアイデア創出の場所という役割を担うとすれば、こういったおもちゃ箱にはもっと多くの日本人研究者や起業家が積極的に取り組むとよいと思います。








関連記事
  • ngi group、リアルタイムモバイル SNS 「ピクスタ」β版を提供開始
  • マイクロソフト、開発者向けの「MSDN ライブラリ」に Wiki 機能を追加
  • アリエル、マルチスケジューラにマルチカレンダー機能を導入
  • BroadBank、モール店舗と販売/在庫情報共有可能な「SHOP☆STAR Pro」を提供
  • 情報共有システム「アリエル・エンタープライズ」が正式リリース、ノーツから移行可能


  • 関連テーマ
  • Google


  • ★最新トップニュース
    国内 KDDI、au one net の WEB メールサービスを停止―他ユーザーのメールが閲覧できる不具合(Webビジネス 7月25日 21:00)
    KDDI は、2008年7月25日、固定系インターネット接続サービス「au one net」(旧 DION)にて提供している「WEB メール」サービスを、同日停止したことを発表した。
    コラム Apple がどうしても中国と相容れない理由(Webビジネス 7月25日 18:00)
    同社は7月19日、新しいピカピカの Apple ストアを北京にオープンさせた。Apple 関係者によると、中国には Apple ストアを「今後続々」オープンさせていくという。レースは始まっているのだ。しかし、Apple はこの競技で勝てるのだろうか?
    国内 キューピーが「犬夜叉」「めぞん一刻」などとコラボ、「キュージョン」新バージョン登場画像のある記事(E-コマース 7月25日 18:00)
    株式会社ラナは、2008年7月25日、ローズオニールキューピーと有名キャラクターとのコラボレーション「キュージョン」の第5弾として、「キュージョン るーみっくわーるど」バージョンを発売した。
    国内 【今週の Web ミミズク】まだまだ続く HP ミニノート騒動(Webテクノロジー 7月25日 17:40)
    「HP 2133 Mini-Note PC」の後継となるモデルが8月中に販売される予定だが、さて、どうなることやら。iPhone もすごかったが、Mini-Note も、まだまだ後を引きそうだ。
    国内 マイスペース、未成年者対応を強化―米国での15歳未満への対応を国内の18歳未満に適用(Webマーケティング 7月25日 17:00)
    マイスペース株式会社は、2008年7月25日、同社の提供する SNS「MySpace Japan」にて、18歳未満の未成年者への対応の強化を PC、モバイルともに完了したと発表した。
    トピックス
    > オススメのIT系求人情報【毎週月曜日更新】
    footer_301.gif


    リサーチ
    > デイリーリサーチDLサイト
    > OnlineResearchPortal (リサーチデータバンク)
    > モバイルリサーチ with goo
    footer_301.gif
    キーワード
    > iPhone > Youtube
    > Google > モバイルノート
    > 半導体 > ウィルコム
    > テーマ一覧はこちら
    footer_301.gif
    セミナー情報
    > 第1回インターネットコムマーケティングセミナー「新規クライアントを効率的に獲得する Web マーケティング手法とは」(3月26日)多数のご参加ありがとうございました
    footer_301.gif
    デベロッパー
    > DevX
    > CodeGuru
    > developer.com
    footer_301.gif
    日本Oracle
    footer_301.gif
    j.i.c.ブログ
    ブログ一覧
    デスマーチからの脱却 【デスマーチからの脱却】
    独自ドメインでiPhoneのメール送受信(7月25日)
    データメーション 【データメーション】
    本物のスパム王様はお名乗り出ください(7月24日)
    Graphic Design Forum 【Graphic Design Forum】
    興味深い(?)90年代 (7月24日)
    エンジニアの独り言 【エンジニアの独り言】
    新入社員が配属される季節ですね。(7月23日)
    ジュピターメディア創設者がITを斬る 【ジュピターメディア創設者がITを斬る】
    Alan を探せ(7月18日)
    ベンチャー専門家の目利きブログ「なぜこの企業は伸びるのか?」 【ベンチャー専門家の目利きブログ「なぜこの企業は伸びるのか?」】
    「『訪問歯科診療』のパイオニア」/デンタルサポート株式会社(7月15日)
    footer_301.gif
    最新コラム一覧
    IT マネジメント IT マネジメント

    Apple がどうしても中国と相容れない理由(7月25日)
    CodeGuru CodeGuru

    Visual C++ 2008 Feature Pack: MFCの強化 (2)(7月25日)
    最新アフィリエイト事例にみる成功の法則 最新アフィリエイト事例にみる成功の法則

    メディアのニーズ 〜アフィリエイトに対する思い〜(7月25日)
    最新ハイテク講座 最新ハイテク講座

    Blu-ray がノート PC でも快適に!インテル「Centrino 2」(7月25日)
    百式のネットビジネス研究 百式のネットビジネス研究

    究極にシンプルなタスク管理ツール「now do this」(7月25日)
    週刊-サイト別アクセス状況データ 週刊-サイト別アクセス状況データ

    ビデオリサーチインタラクティブ調査(月間インターネットオーディエンスデータ)(7月24日)
    ハードウェアから見たデータベース ハードウェアから見たデータベース

    表計算ソフトの計算を支える仕組(7月24日)
    「IT の耳」 「IT の耳」

    【書評】『ネットオークションで騙す。』―全米を揺るがした絵画詐欺犯の告白―(7月24日)
    検索エンジンマーケティング 検索エンジンマーケティング

    ピンポイントマーケティングにおける P4P(検索連動型広告)の“当たり前”(7月24日)
    Eメールマーケティング事情 Eメールマーケティング事情

    大量送信のスパムからターゲット絞り込みスパムメールへ(7月23日)
    footer_301.gif
    専門チャンネル
    > セキュリティチャネル > テレコムチャネル
    > サーチエンジンウォッチ
    footer_301.gif
    海外のインターネットコム アメリカ韓国ドイツトルコ
    関連企業のサイト:ストックフォト イラスト ネットストリート ホテル予約サイト タウン情報 出張 事業継承 シミュレーション トランクルーム 優待映画チケット 田舎暮らしガイド オリジナルデザインTシャツ ニタコエ
    Copyright 2008 Jupitermedia Corporation All Rights Reserved. http://www.internet.com/
    space.gif space.gif