Wahaha-blog

Fri, 23 Jan 2009

EDGE Datasetsのタグ分布

やっぱりめっちゃ偏ってます.ちなみに頻度の上位20タグはこんなんでした.「キャッシング」「ローン」「審査」「金融」はスパムっぽいですね.

javascript,25371
web,25229
yuiseki,20466
google,19758
ネタ,19685
あとで,17582
キャッシング,17498
2ch,16977
tips,16785
ローン,16452
あとで読む,15111
まとめ,14996
blog,14153
tool,13772
CSS,13751
未カテゴリ,13444
審査,13274
hatena,12622
design,12502
金融,11651

permanent link | writeback(0)

Comments...

続女試し

奥さんに女試しを試してもらったら,なんとmoteQが100でした.「阪大現役/OG/OBのmoteQは20以下」という仮説は棄却されました.

permanent link | writeback(4)

Comments...

こっそり阪大OGですが58でした。でも100ってすごいですね。

はち, 2009/1/23 09:15:51

みんな両極端な値だったので,初めてまともな値を見ました.ちゃんと出るんですね.
matumura, 2009/1/23 09:59:52

私は自分の考えの真逆にしたらいいのかと思って試したら遂に
ゼロ!
をたたき出してしまいました.ikuさん共々「外れ値」ということで.

asarin, 2009/1/23 13:48:55

僕の周りの人は「外れ値」ばかり.笑
matumura, 2009/1/23 14:33:55

EDGE Datasets

僕の授業の受講者のトントカイモ氏(一応匿名にしとこう)が,EDGE Datasetsの整形ソフトClipGetterを公開しています.ClipGetterおよびマニュアルをEDGE Datasetsを用いたテキストマイニングで公開していますので,ご興味のある方はどうぞ.TTM用のフォーマットを出力できるところがマニアックで素敵です.

permanent link | writeback(1)

Comments...

ちなみに,EDGE DatasetsについてくるREADME.txtには,データをパースするperlスクリプトが付いてます.

matumura, 2009/1/23 07:20:54