Sat, 25 Feb 2006
今度の「ことば工学研究会」で発表する原稿ができました。実験結果と最小限の考察しか書いてないのでまだ不十分なのですが、暫定的に公開します。
「mixi における男女別・年代別の利用者意識の抽出」(PDF, 176KB)
ご意見・感想等ありましたらお気軽にお寄せください。
matumura, 2006/02/25 19:15
---
> 先日,お話されていたデータでしょうか?
そうです、先日相談にのっていただいた分析です。今日もたくさんのコメントありがとうございます。
> これくらいのサンプル数では,高次元型のクラスタリングを適用するのは危なそうですね.
こういう自由回答データは数を集めるのは難しいので、少ない(かつテキストなのでスパースな)データから有用な知見を見いだすための方法が必要になります。選択式アンケートの結果を利用したりシソーラスを利用するなど、そういう方法が必要になってきますが、こういった分析方法はまだ確立されていないので面白いなと思ってます。
> 私の主観的な印象ですが,出会い系みたいな部分しか,SNSにはないのかという感じが,ちょっと寂しいですね.「交流一般」に関する情報を除去して,何か解析ができると面白いかも.
やはり「趣味」と「交流」が主要な軸になってますね。今回の分析で交流の「明」と「暗」の両面が浮き彫りに成って、交流を負担に感じている層がいることが分かったのは面白いなと思ってます。
> 同様のことができる,空間の変換とかを考えると面白い気がしてきた‥‥
おぉ、これってどういった手法が該当するのでしょうか?
> 図1ですが,多数の比較項目がありますが,多重比較の補正とかをしておかないとちょっと危険かもと思いました.
そうですね。局所的な関係をつなぎ合わせて図をつくっているので、図全体の構造がデータにフィットするものではないです。しかし、元のデータがテキストなので、語と語の意味的な関わりとか、文脈中の語の関わりを反映させるためには厳密なモデルでは厳しいので、こういった緩いモデルのほうが向いてると思ってます。
> どちらが,一般的かわからないのですが,χ^2値よりp値の方が直観的な気がしました.
僕もそうだと思います^^;
自作プログラムが今のところx^2値しか出力しないので、ちょっと手抜きしてそのまま使ってます。これについてはそのうち修正します。
matumura, 2006/02/26 14:57
---
> 期待させてすみません.こんな方法を思いついたら,一本書けるなと思っただけです.
もしこの行列データ(次元圧縮前のスパースなのは100x212)に興味がおありでしたらお渡ししますので、その際はご連絡ください。
> いや,対ごとの比較でも,危険率を群の数で補正するBonferroniの修正 (危険率α,群の数 n,α/(n(n-1)/2) の危険率に修正) とかしておかないとまずいかなと思いました.
すいません、Bonferroniの修正をよく知らないので、どうまずいのか教えていただけますと助かります。
matumura, 2006/02/26 17:50
---
ポインタありがとうございます。さーっと目を通してBonferroni adjustmentsが掴めてきました。なんども検定したらそのぶん間違って棄却してしまう確率が高くなるのでそれを補正するんですね。Rでもできることが分かったので、もう少し調べて使ってみます。ありがとうございました!
matumura, 2006/02/26 20:49
スター・ウォーズ ダース・ベイダー FXライトセーバー エピソード5
これでプレゼンしたら迫力満点!
matumura, 2006/02/25 18:58
---
言うことを聞かない人は成敗!
matumura, 2006/02/25 19:43
今日は早起きして前期試験の場内警備。けっこうぼーっとできる時間があったので、頭の中がクリアされて久しいDoblog研究の分析方針について悶々と考えること1時間、めっちゃ面白そうなアイデアが思いついた。簡単に言うと「幸せマップ」を作ります。場内警備もけっこういいもんだ。
matumura, 2006/02/25 18:24