cyber-communities

以前、この辺の研究の紹介を聞いた事がある。
Trawling the web for emerging cyber-communities*1

例えば、Yahooのディレクトリ検索には数多くのwebサイトが様々なカテゴリーに分類されているが、サイトの登録はかなりの部分を手動で行っていて(少なくとも1999年当時は)、採集・分類出来るサイト数には限界がある。この研究は、web miningによる自動化を見越したものと思われる。

共通の話題を持つwebサイトどうしが作るコミュニティを「相互リンク」「文章の引用」等に着目して抽出する。Alexaにある2億ページ以上、約1TBのHTMLをデータマイニングした結果、

  • 自動抽出されたコミュニティのうち、96%は実際にコミュニティを形成していた
  • 56%はyahoo!に載っておらず、29%は1年半後もyahoo!に載っていなかった
  • 30%は1年半後には消滅していた

感想:「自動化、そろそろ来るかも」「旬の話題を自動で発掘してほしい」

果たしてその後、なかなか面白いサービスは出てきているんだが

最近、非常に注目しているのは『kizasi.jp

この間は「寒いよ」というキーワードがエントリーしていた。一般語といえば一般語だが、急に寒くなってきた頃なのである意味かなり旬なキーワードだ。同じ頃「D誌」「W誌」といった知らないキーワードがランクに入ってたけど、男性アイドル誌の発売日*3らしいという流れまですぐ分かる。

  • 最近エントリーされたblog記事から主要キーワードを抽出。一般語が少ない。
  • 同じ話題で複数のキーワードがランクインする事も多いが、まあ許せる
    仰木彬元監督の訃報に関して「仰木彬前」「仰木彬」「近鉄監督」「仰木彬氏」「仰木彬監督」「シニアアドバイザー」「仰木彬さん」が別々のキーワードとしてランクインしている。でも話題の盛り上がりが分かるし個人的には問題無いレベル。
  • そのものずばりのキーワードでは無い事もあるが、まあ分かる
    姉歯建築士の話題で「証人喚問」がランクインしているが、「姉歯」「強度」「元建築士」といった関連語も一緒に抽出されるので話題が追い易い

blogが普及して、黙っていてもRSSが飛んでくるのでweb miningにとっていい時代になった。

画像:Christmas illuminations, Times Square, Shinjuku, Tokyo, Japan / Dec. 12 2005

*1:Computer Networks, Vol.31(1999), pp.1481-1493

*2:2006/02/26追記:2/16にランキング算出アルゴリズムが変更されて改善された

*3:「D誌」duet、「W誌」Wink up、「P誌」POTATO、関連して「M誌」Myojo