Wahaha-blog

Thu, 07 Dec 2006

数字

男女分類に効いてる素性を見てると, 男性の方が明らかに数字をよく使ってることが分かる. なんでかなーと思ってたけど Moshe Koppel et al. Automatically categorizing written texts by author gender, Literary and Linguistic Computing, 17(4), 2003 にも同じことが書かれてたのでやっぱり合ってるのかな. 他にもいろいろ言えることがあるので,そのうちまとめてみよう.

男性によく使われる素性の上位10個

 1. 僕:名詞:代名詞      0.06700   0.05562   [0.06700  0.01138]
 2. 俺:名詞:代名詞      0.05119   0.04327   [0.05119  0.00791]
 3. 的:名詞:接尾       0.16222   0.03719   [0.16222  0.12503]
 4. 0:名詞:数        0.12810   0.03358   [0.12810  0.09451]
 5. 4:名詞:数        0.08712   0.02624   [0.08712  0.06088]
 6. 1:名詞:数        0.19679   0.02455   [0.19679  0.17224]
 7. 日本:名詞:固有名詞    0.06301   0.02453   [0.06301  0.03848]
 8. 5:名詞:数        0.08980   0.02397   [0.08980  0.06583]
 9. 2:名詞:数        0.17806   0.02256   [0.17806  0.15550]
10. 問題:名詞:ナイ形容詞語幹 0.04934   0.01969   [0.04934  0.02965]


女性によく使われる素性の上位10個

 1. 私:名詞:代名詞      0.31340   0.19075   [0.12265  0.31340]
 2. 笑:名詞:固有名詞     0.15111   0.07816   [0.07295  0.15111]
 3. 今日:名詞:副詞可能    0.24634   0.03853   [0.20781  0.24634]
 4. 時:名詞:非自立      0.11916   0.02867   [0.09049  0.11916]
 5. 好き:名詞:形容動詞語幹  0.08640   0.02560   [0.06080  0.08640]
 6. 今:名詞:副詞可能     0.16514   0.02475   [0.14039  0.16514]
 7. 自分:名詞:一般      0.16218   0.02459   [0.13760  0.16218]
 8. 家:名詞:一般       0.06430   0.02416   [0.04014  0.06430]
 9. 何:名詞:代名詞      0.17015   0.02356   [0.14659  0.17015]
10. 女:名詞:一般       0.02700   0.02158   [0.00542  0.02700]

permanent link | writeback(0)

Comments...

asahi.comデビュー

今頃知ったのですが,12月4日のasahi.comの記事(ホットリンク、ブログの書き込みから評判や書き手の性別を判別するシステム)に名前が出てました.

permanent link | writeback(4)

Comments...

おお,はかせはかせー!!

asarin, 2006/12/7 16:40:37

「はかせ」なんて呼ばれたことないので変な感じですねー

matumura, 2006/12/7 17:37:01

おおおー。すげーすげー。
sunasuna, 2006/12/7 23:18:52

いやーそれほどでもー ヽ( ´ゝ`)ノ
matumura, 2006/12/7 23:56:29