Technology
テクノロジー
情報共有システムに関するデータ寄りの視点
Web2.0 という言葉もそろそろ聞き飽きた、というかあまり聞かれなくなったという感じがあり、流行り物が大好きな日本人としては「Web2.0 って過去だよね〜」などと宣言して、連載を始めてみたい気もしました。
が、しかし私は仮にもハードコアな技術魂を持っていることを周囲に標榜しているので、流行り廃りでものの価値を決めてしまうことはしたくない、と考え直して、襟を正して、技術的な視点を大切にしてコラムを書いていこうと考えています。
■ 定型データと非定型データ
前任者のコラムの延長で、まずグループウェア、インフォメーション ポータルといった(業務系との対比の意味での)情報系のシステムに関して考えてみます。業務系、情報系といったややあいまいな言い方でなんとなく区別がつきそうでつかないのですが、取り扱うデータの側面から考えると、定型データと非定型データの違いと捉えることができます。
商品番号、仕入先、原価、顧客名、発送日、請求書番号、住所、電話番号… これらはデータ タイプがはっきりしています。これらのデータ構造に対して、関係モデルを用意したり、オブジェクトとして各種メソッドを設計したりすることもできます。このようなデータ構造がシステムの主たる構成データである場合に、そのシステムを定型データ上のシステムと呼ぶことにしましょう。それに対して、非定型データ上のシステムを考えてみます。
■ 非定型データは扱いにくい
電話でのコミュニケーションにおける通話内容を例に取りましょう。通話自体に課金するような目的には通話開始時間、通話総時間や掛けた側の情報、受けて側の情報などの定型データが登場しますが、通話の中身は非定型です。課金に関するシステムが定型データを主に扱うシステムであるのに対して、この場合の会話の中身を扱うシステムが非定型データを扱うシステムです。
その会話の内容がビジネス上重要なものに限定したとしても、「明日の待ち合わせ場所と時間について」かもしれないし「受注した商品が期日までに納品されるかどうかの確認」かもしれないし「コードネームで呼ばれる秘密プロジェクトの進捗状況」かもしれません。非定型のデータは日常のコミュニケーションで交わされている内容ですから、「そこになんらかの知識が存在しているがあらかじめその内容を分析するほどに定式化されてはいない」という扱いにくいものです。
こういったものを総称して知識(ナレッジ)と称して集めておき、日時、書き手などの参考となる定型データをタグとしてラベルして保存しておくのが非定型データのデータベースです。
■ タグつき非定型データ
この非定型データの取り扱いを考える場合、内容や意味を分析することなしにデータに対するメソッドをほとんど考えつきません。すぐに思いつくのは文字数とか文の数程度でしょうか。もちろんこれではそれらのデータは知識として役に立つ内容にはなりません。
そこで、できるだけ多くの定型データをタグとしてつけておくと扱いやすいデータになります。会話の日時、会話者、会話内容のキーワードなどです。しかし、これらの定型データを補完すればするほど、日常会話的なコミュニケーションから書類による定型コミュニケーションのような、コミュニケーション自体のコストが高くなっていきます。
■ 自然文解析のアプローチ
そこで、自然なコミュニケーションに近いデータに関してシステムの側が有用な定型データを構成する方法を考えましょう。そこでは非定型データに対しての内容や意味の分析が重要となってきます。Nグラムとか形態素分析とかいった手法でテキストの構造をもとに意味内容を抽出する方法です。全文検索技術の基礎になっている手法です。データ間の類似度をベクトル空間法などのやり方をもとに並べてデータの意味的ソートを行う方法も考えられます。
■ ネットワーク分析のアプローチ
その他にネットワーク的なアプローチがあります。ハイパーリンクはテキスト間のレファレンスであるから、複数のハイパーテキストを考える場合には、ここのテキストの情報だけでなくリンクを分析することも有意義に思われます。実際、このネットワーク的な分析を使うとテキストの分析に新しい有効な手法が得られるのですが、例を挙げると Google のサーチエンジンや商用サイトのリコメンデーション エンジンがあります。こうしてみると、ネットワーク的なアプローチが非定型データの典型であるドキュメントの分析に新しい地平を開いたことが見えてくると思います。
■ 大きく二極にわける
このように考えるとノウハウとか知識と呼ばれる非定型のデータに関して、タグ付けアプローチのように、業務分析と同様の手法を駆使して収集するデータの構造を限定して有効な知識に組み立てるか、とりあえず、自然文解析やネットワーク分析のように非定型のままデータを集めて分析的手法を駆使して知の内容を浮き上がらせるか、大きく分けて2方向からのアプローチが見えてきます。
■ 予告
次回は知の共有を目的とする場合に重要な要素となる情報発信者側の制約条件を考えてみます。そこでは Web2.0 の非定型データ上のシステムへのアプローチがはっきりするでしょう。
が、しかし私は仮にもハードコアな技術魂を持っていることを周囲に標榜しているので、流行り廃りでものの価値を決めてしまうことはしたくない、と考え直して、襟を正して、技術的な視点を大切にしてコラムを書いていこうと考えています。
■ 定型データと非定型データ
前任者のコラムの延長で、まずグループウェア、インフォメーション ポータルといった(業務系との対比の意味での)情報系のシステムに関して考えてみます。業務系、情報系といったややあいまいな言い方でなんとなく区別がつきそうでつかないのですが、取り扱うデータの側面から考えると、定型データと非定型データの違いと捉えることができます。
商品番号、仕入先、原価、顧客名、発送日、請求書番号、住所、電話番号… これらはデータ タイプがはっきりしています。これらのデータ構造に対して、関係モデルを用意したり、オブジェクトとして各種メソッドを設計したりすることもできます。このようなデータ構造がシステムの主たる構成データである場合に、そのシステムを定型データ上のシステムと呼ぶことにしましょう。それに対して、非定型データ上のシステムを考えてみます。
■ 非定型データは扱いにくい
電話でのコミュニケーションにおける通話内容を例に取りましょう。通話自体に課金するような目的には通話開始時間、通話総時間や掛けた側の情報、受けて側の情報などの定型データが登場しますが、通話の中身は非定型です。課金に関するシステムが定型データを主に扱うシステムであるのに対して、この場合の会話の中身を扱うシステムが非定型データを扱うシステムです。
その会話の内容がビジネス上重要なものに限定したとしても、「明日の待ち合わせ場所と時間について」かもしれないし「受注した商品が期日までに納品されるかどうかの確認」かもしれないし「コードネームで呼ばれる秘密プロジェクトの進捗状況」かもしれません。非定型のデータは日常のコミュニケーションで交わされている内容ですから、「そこになんらかの知識が存在しているがあらかじめその内容を分析するほどに定式化されてはいない」という扱いにくいものです。
こういったものを総称して知識(ナレッジ)と称して集めておき、日時、書き手などの参考となる定型データをタグとしてラベルして保存しておくのが非定型データのデータベースです。
■ タグつき非定型データ
この非定型データの取り扱いを考える場合、内容や意味を分析することなしにデータに対するメソッドをほとんど考えつきません。すぐに思いつくのは文字数とか文の数程度でしょうか。もちろんこれではそれらのデータは知識として役に立つ内容にはなりません。
そこで、できるだけ多くの定型データをタグとしてつけておくと扱いやすいデータになります。会話の日時、会話者、会話内容のキーワードなどです。しかし、これらの定型データを補完すればするほど、日常会話的なコミュニケーションから書類による定型コミュニケーションのような、コミュニケーション自体のコストが高くなっていきます。
■ 自然文解析のアプローチ
そこで、自然なコミュニケーションに近いデータに関してシステムの側が有用な定型データを構成する方法を考えましょう。そこでは非定型データに対しての内容や意味の分析が重要となってきます。Nグラムとか形態素分析とかいった手法でテキストの構造をもとに意味内容を抽出する方法です。全文検索技術の基礎になっている手法です。データ間の類似度をベクトル空間法などのやり方をもとに並べてデータの意味的ソートを行う方法も考えられます。
■ ネットワーク分析のアプローチ
その他にネットワーク的なアプローチがあります。ハイパーリンクはテキスト間のレファレンスであるから、複数のハイパーテキストを考える場合には、ここのテキストの情報だけでなくリンクを分析することも有意義に思われます。実際、このネットワーク的な分析を使うとテキストの分析に新しい有効な手法が得られるのですが、例を挙げると Google のサーチエンジンや商用サイトのリコメンデーション エンジンがあります。こうしてみると、ネットワーク的なアプローチが非定型データの典型であるドキュメントの分析に新しい地平を開いたことが見えてくると思います。
■ 大きく二極にわける
このように考えるとノウハウとか知識と呼ばれる非定型のデータに関して、タグ付けアプローチのように、業務分析と同様の手法を駆使して収集するデータの構造を限定して有効な知識に組み立てるか、とりあえず、自然文解析やネットワーク分析のように非定型のままデータを集めて分析的手法を駆使して知の内容を浮き上がらせるか、大きく分けて2方向からのアプローチが見えてきます。
■ 予告
次回は知の共有を目的とする場合に重要な要素となる情報発信者側の制約条件を考えてみます。そこでは Web2.0 の非定型データ上のシステムへのアプローチがはっきりするでしょう。
記事提供:
アリエル・ネットワーク株式会社
New Topics
Special Ad
| “超高速無線 LAN 時代”の幕開け--新規格 11ac(Draft)に対応したバッファロー最新ルーターの潜在能力を試す | |
![]() |
バッファローは次世代無線 LAN 規格 IEEE802.11ac(Draft)通信速度最大 1,300Mbps 対応無線 LAN ルーター「WZR-1750DHP」を3月下旬に販売開始。今回、同機器を入手できたので、使用感や便利な機能についてレポートしたい。⇒詳細記事へ |
Hot Topics
IT Job
今週のIT求人情報
Interviews / Specials
Follow japan.internet.com
Popular
Access Ranking
Partner Sites










