Technology
テクノロジー
タグやキーワード検索の先にあるもの
いつの間にかインターネット上で一般化した“タグ”ですが、みなさんは活用できているでしょうか?
“タグ”の目的というのは2種類あります。ひとつはいわゆる「しおり」としての個人利用。そしてもうひとつは Folksonomy という用語で表される、タグを使った自動カテゴライズとそれによる検索性能向上というものです。
私は、どこかのサイトでタグを使ったという経験がほとんどありません。残念ながら、ユーザーとしてみた場合に、そのメリットや効果がほとんど目に見えないので、私のように使ったことがない人がほとんどなのではないでしょうか。
そこで今回は、この folksonomy について、特にそれがもたらすであろうものについて詳しく紹介します。私は folksonomy の専門家ではありませんので、あくまでデータベース屋が見た folksonomy です。
Google で検索すると、検索結果の上や下に、「他のキーワード」(関連検索と表示されていたはずが、執筆時点で検索したら変わっている)と表示されているのはお気づきでしょうか。
気づいていたという人は多いと思いますが、どういうものが提案されていると思いますか? ぜひ、しばし考えてみてから、実際に身近なキーワードで試してみてください。
私がこれまで調査したところでは、これは異なるカテゴリへ誘導してくれています。言い方を変えると、検索結果が異なるキーワードの組み合わせを提案してくれています。Yahoo! が人力で Web サイトを分類しているのとは対照的に、Google は何らかの方法でキーワードを自動で分類し、ユーザーに分類を辿るような機能を提供してくれているのです。
実はこのようなアウトプットこそ、Folksonomy が実現すべきことです。タグがないじゃないかと思われるかもしれませんが、ユーザーが入力してきたキーワードをタグだと考えれば、ほとんど同じことだといえます。残念ながら、タグを入力するのは面倒くさいが、検索するためならキーワードを入力するというのが現実なようです。
検索エンジンがよりどころにしている技術は1つしかなくて、Vector Space Model というものです。これは、文書間の類似性を表現できるモデルで、1975年 Salton 氏によって発表されました。
このモデルでは、各文章はN単語から成るN次元の空間の中でベクトルとして表現され、文書間の類似性は、それらのベクトルの角度で表現されます。
氏はこの中で明言しているのですが、もし類似する単語が分類されていたら文書の検索性能は理論的に向上するが、自動的にそれを行うことは不可能なので、その場合は、すべての単語間に一切の関連性がないのがいい、とのことでした。
実はこの理論的な限界(単語間の関連性がない)というのは、今日も打破できていないため、Google が自動分類しているようなアウトプットを出すためには、膨大なユーザーによる検索履歴とその結果の情報が必要になります。
恐らく近い将来も、タグによる Folksonomy が世界を変えることはないと思われます。それよりも、専門分野に特化したサイトが検索を活用し、より“まっとうな”分類を自動構築していくと想像されます。
この場合の面白い可能性としては、“誰が”というユーザーという要素も取り入れることで、ニッチなサイトならではの、有名ではないが重要な文書へ辿りつけるような検索を実現できるるだろうということです。Google が広く一般にとって、という視点なのに対し、個性的な視点を提供できると思われます。
今回は「巨大テーブル活用術2」というタイトルでタグを取り上げる予定だったのですが、まだまだ実際に使用するとなると MySQL DB や Lucene 検索エンジンを活用したほうが性能・機能とも圧倒的だったため、それよりはあまり知られていないであろう Folksonomy という概念自体について取り上げてみました。
次回は、巨大テーブルの最も有望な利用方法、ログ解析について取り上げる予定です。これも Folksonomy に絡んだ、検索履歴の解析部分になります。今度は実用的な例を紹介できると思いますので、お楽しみに。
“タグ”の目的というのは2種類あります。ひとつはいわゆる「しおり」としての個人利用。そしてもうひとつは Folksonomy という用語で表される、タグを使った自動カテゴライズとそれによる検索性能向上というものです。
私は、どこかのサイトでタグを使ったという経験がほとんどありません。残念ながら、ユーザーとしてみた場合に、そのメリットや効果がほとんど目に見えないので、私のように使ったことがない人がほとんどなのではないでしょうか。
そこで今回は、この folksonomy について、特にそれがもたらすであろうものについて詳しく紹介します。私は folksonomy の専門家ではありませんので、あくまでデータベース屋が見た folksonomy です。
Google で検索すると、検索結果の上や下に、「他のキーワード」(関連検索と表示されていたはずが、執筆時点で検索したら変わっている)と表示されているのはお気づきでしょうか。
気づいていたという人は多いと思いますが、どういうものが提案されていると思いますか? ぜひ、しばし考えてみてから、実際に身近なキーワードで試してみてください。
私がこれまで調査したところでは、これは異なるカテゴリへ誘導してくれています。言い方を変えると、検索結果が異なるキーワードの組み合わせを提案してくれています。Yahoo! が人力で Web サイトを分類しているのとは対照的に、Google は何らかの方法でキーワードを自動で分類し、ユーザーに分類を辿るような機能を提供してくれているのです。
実はこのようなアウトプットこそ、Folksonomy が実現すべきことです。タグがないじゃないかと思われるかもしれませんが、ユーザーが入力してきたキーワードをタグだと考えれば、ほとんど同じことだといえます。残念ながら、タグを入力するのは面倒くさいが、検索するためならキーワードを入力するというのが現実なようです。
検索エンジンがよりどころにしている技術は1つしかなくて、Vector Space Model というものです。これは、文書間の類似性を表現できるモデルで、1975年 Salton 氏によって発表されました。
このモデルでは、各文章はN単語から成るN次元の空間の中でベクトルとして表現され、文書間の類似性は、それらのベクトルの角度で表現されます。
氏はこの中で明言しているのですが、もし類似する単語が分類されていたら文書の検索性能は理論的に向上するが、自動的にそれを行うことは不可能なので、その場合は、すべての単語間に一切の関連性がないのがいい、とのことでした。
実はこの理論的な限界(単語間の関連性がない)というのは、今日も打破できていないため、Google が自動分類しているようなアウトプットを出すためには、膨大なユーザーによる検索履歴とその結果の情報が必要になります。
恐らく近い将来も、タグによる Folksonomy が世界を変えることはないと思われます。それよりも、専門分野に特化したサイトが検索を活用し、より“まっとうな”分類を自動構築していくと想像されます。
この場合の面白い可能性としては、“誰が”というユーザーという要素も取り入れることで、ニッチなサイトならではの、有名ではないが重要な文書へ辿りつけるような検索を実現できるるだろうということです。Google が広く一般にとって、という視点なのに対し、個性的な視点を提供できると思われます。
今回は「巨大テーブル活用術2」というタイトルでタグを取り上げる予定だったのですが、まだまだ実際に使用するとなると MySQL DB や Lucene 検索エンジンを活用したほうが性能・機能とも圧倒的だったため、それよりはあまり知られていないであろう Folksonomy という概念自体について取り上げてみました。
次回は、巨大テーブルの最も有望な利用方法、ログ解析について取り上げる予定です。これも Folksonomy に絡んだ、検索履歴の解析部分になります。今度は実用的な例を紹介できると思いますので、お楽しみに。
記事提供:db4objects
New Topics
Special Ad
| ウマいもの情報てんこ盛り「えん食べ」 | |
![]() |
「えん食べ」は、エンジョイして食べる、エンターテイメントとして食べものを楽しむための、ニュース、コラム、レシピ、動画などを提供します。 てんこ盛りをエンジョイするのは こちらから |
Hot Topics
IT Job
今週のIT求人情報
Interviews / Specials
Follow japan.internet.com
ネット選挙
Popular
Access Ranking
Partner Sites












