Thu, 07 Dec 2006
男女分類に効いてる素性を見てると, 男性の方が明らかに数字をよく使ってることが分かる. なんでかなーと思ってたけど Moshe Koppel et al. Automatically categorizing written texts by author gender, Literary and Linguistic Computing, 17(4), 2003 にも同じことが書かれてたのでやっぱり合ってるのかな. 他にもいろいろ言えることがあるので,そのうちまとめてみよう.
男性によく使われる素性の上位10個 1. 僕:名詞:代名詞 0.06700 0.05562 [0.06700 0.01138] 2. 俺:名詞:代名詞 0.05119 0.04327 [0.05119 0.00791] 3. 的:名詞:接尾 0.16222 0.03719 [0.16222 0.12503] 4. 0:名詞:数 0.12810 0.03358 [0.12810 0.09451] 5. 4:名詞:数 0.08712 0.02624 [0.08712 0.06088] 6. 1:名詞:数 0.19679 0.02455 [0.19679 0.17224] 7. 日本:名詞:固有名詞 0.06301 0.02453 [0.06301 0.03848] 8. 5:名詞:数 0.08980 0.02397 [0.08980 0.06583] 9. 2:名詞:数 0.17806 0.02256 [0.17806 0.15550] 10. 問題:名詞:ナイ形容詞語幹 0.04934 0.01969 [0.04934 0.02965] 女性によく使われる素性の上位10個 1. 私:名詞:代名詞 0.31340 0.19075 [0.12265 0.31340] 2. 笑:名詞:固有名詞 0.15111 0.07816 [0.07295 0.15111] 3. 今日:名詞:副詞可能 0.24634 0.03853 [0.20781 0.24634] 4. 時:名詞:非自立 0.11916 0.02867 [0.09049 0.11916] 5. 好き:名詞:形容動詞語幹 0.08640 0.02560 [0.06080 0.08640] 6. 今:名詞:副詞可能 0.16514 0.02475 [0.14039 0.16514] 7. 自分:名詞:一般 0.16218 0.02459 [0.13760 0.16218] 8. 家:名詞:一般 0.06430 0.02416 [0.04014 0.06430] 9. 何:名詞:代名詞 0.17015 0.02356 [0.14659 0.17015] 10. 女:名詞:一般 0.02700 0.02158 [0.00542 0.02700]
Comments...
今頃知ったのですが,12月4日のasahi.comの記事(ホットリンク、ブログの書き込みから評判や書き手の性別を判別するシステム)に名前が出てました.
Comments...
おお,はかせはかせー!!
asarin, 2006/12/7 16:40:37
matumura, 2006/12/7 17:37:01
おおおー。すげーすげー。
sunasuna, 2006/12/7 23:18:52
いやーそれほどでもー ヽ( ´ゝ`)ノ
matumura, 2006/12/7 23:56:29