cyber-communities
以前、この辺の研究の紹介を聞いた事がある。
Trawling the web for emerging cyber-communities*1
例えば、Yahooのディレクトリ検索には数多くのwebサイトが様々なカテゴリーに分類されているが、サイトの登録はかなりの部分を手動で行っていて(少なくとも1999年当時は)、採集・分類出来るサイト数には限界がある。この研究は、web miningによる自動化を見越したものと思われる。
共通の話題を持つwebサイトどうしが作るコミュニティを「相互リンク」「文章の引用」等に着目して抽出する。Alexaにある2億ページ以上、約1TBのHTMLをデータマイニングした結果、
感想:「自動化、そろそろ来るかも」「旬の話題を自動で発掘してほしい」
果たしてその後、なかなか面白いサービスは出てきているんだが
- googleのzeitgeist
・更新が月に一回以下。おそらくスタッフが整理している
・何故そのキーワードが注目されているのか背景が分からない事も - はてなダイアリーの注目キーワード
・一般語が常にランキング上位を占めていて旬の話題が埋もれがち*2 - はてなブックマークの最近の人気エントリー
「旬の話題」と「皆が注目しているblogの最新記事」を明確に分けられない - ついでにはてダ 注目URL + はてブ ユーザー数
最近、非常に注目しているのは『kizasi.jp』
この間は「寒いよ」というキーワードがエントリーしていた。一般語といえば一般語だが、急に寒くなってきた頃なのである意味かなり旬なキーワードだ。同じ頃「D誌」「W誌」といった知らないキーワードがランクに入ってたけど、男性アイドル誌の発売日*3らしいという流れまですぐ分かる。
- 最近エントリーされたblog記事から主要キーワードを抽出。一般語が少ない。
- 同じ話題で複数のキーワードがランクインする事も多いが、まあ許せる
仰木彬元監督の訃報に関して「仰木彬前」「仰木彬」「近鉄監督」「仰木彬氏」「仰木彬監督」「シニアアドバイザー」「仰木彬さん」が別々のキーワードとしてランクインしている。でも話題の盛り上がりが分かるし個人的には問題無いレベル。 - そのものずばりのキーワードでは無い事もあるが、まあ分かる
姉歯元建築士の話題で「証人喚問」がランクインしているが、「姉歯」「強度」「元建築士」といった関連語も一緒に抽出されるので話題が追い易い
blogが普及して、黙っていてもRSSが飛んでくるのでweb miningにとっていい時代になった。
画像:Christmas illuminations, Times Square, Shinjuku, Tokyo, Japan / Dec. 12 2005