TTM: TinyTextMiner β version
ツイート
このエントリーをはてなブックマークに追加

TTM: TinyTextMiner β version

Last update: 2012-01-18
松村 真宏 <>
三浦 麻子 <>

はじめに

TTMはテキストマイニングの前処理のためのフリーウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成します。日本語と英語に対応しています。Windows版とMac OSX版があります。最新版はバージョン TTM (v0.78 for win, v.079 for mac) です。

インストール for Win

以下の3つのソフトウェアをインストールします。構文解析を行わないときはCaboChaのインストールは不要です。また、英文テキストを解析する場合はMeCabとCaboChaのインストールは不要です。

ソフトウェア 説明
ttm.exe TTM本体。任意の場所に置いてください。
mecab-0.98.exe 工藤拓氏の開発した形態素解析器。文字コードは「Shift-JIS」を選択してください。
cabocha-0.53.exe 工藤拓氏の開発した構文解析器。CaboCha 0.60には今のところ対応していません。

インストール for Mac OSX (10.5 & 10.6)

Mac OSX版はOSX10.5以降に内蔵されているMeCabを利用しますので、MeCabのインストールは不要です。また、構文解析には対応していません。

ソフトウェア 説明
ttm-mac.zip TTM本体。任意の場所に置いてください。
ActivePerl ActivePerl Community Edition(無償)をインストールしてください。

Mac版TTMを起動すると

Use of uninitialized value in concatenation (.) or string at ... Tcl.pm line 394, <DATA> line 855.

のエラーメッセージが出ますが無視してください。

使い方

TTMは をダブルクリックすると起動します。TTMの使い方は非常に簡単なので、サンプルデータをダウンロードして試していただければ分かると思います。

英文テキスト

「詳細設定」タブ内の「English text」にチェックを入れると、英文テキストを分析できます。品詞選択、Stemminigの選択、Penn Treebank Tag setの選択、キーワードファイル・同義語ファイル・不要語ファイルに対応しています。品詞の推定にはhunposを使っています(精度等は論文を参照してください)。

スクリーンショット

Windows版

Mac OSX版

サンプルデータ

サンプルデータを置いておきます。各種ファイルのフォーマットの参考にしてください。

サンプルデータ 説明
bocchan.csv 日本語の入力ファイル
Joel_on_Software.csv 英語の入力ファイル
keyword.txt キーワードファイル
noise.txt 不要語ファイル
synonym.txt 同義語ファイル。各行が1対多の同義語の対応関係を表し、左端の語に変換されます。各語の区切りは半角スペースです。

拙書「人文・社会科学のためのテキストマイニング」で用いているサンプルデータも置いておきます。

サンプルデータ 説明
sampledata.csv 入力ファイルの作成(3.1.1節)
sample_bojgp.csv 日本銀行『金融経済月報』データ(3.2.1節)
sample_chiebukuro.csv 質問紙調査の自由記述回答データ(3.3.1節)
bocchan.csv 夏目漱石『坊っちゃん』データ(5.2節)

FAQ

「ファイルが読めません」「ファイルの一部が読めていません」「分析が途中で止まります」といった質問をよく受けるのですが、その原因はだいたい同じなので、原因と対策を以下にまとめておきます。

原因 対策
空のセルがある。 その行を削除。
半角記号が含まれている。 ExcelのJIS関数等を使って全角文字に変換。
セル内に改行が含まれている。 ExcelのCLEAN関数等を使って改行文字を削除。
機種依存文字(①②③や㍉など)が含まれている。 文字化けするので削除。
MeCabのインストールパスに日本語が混ざっている。 TTMから認識されないのでインストール先を変える。
64bit版Windows7で動きません。 64bit版Windows7ではMeCabが「Program Files (x86)」にインストールされるのでTTMの標準設定では見つけられません。「選択」ボタンを押して、mecab.exeの場所を手動で設定してください。
Mac OSX Lion (10.7) で動きません。 Mac OSX Lionを入手するまでお待ちください…。

パフォーマンス

10万件(90MB, タグは150種)のテキストデータに対する処理時間は以下の通りです。

機種 時間
Win7 64bit core7 SSD 17分
Win7 64bit core7 HDD 24分
Win7 64bit core5 HDD 26分
Win7 64bit core5 HDD ノート 30分
WinXP 32bit core2 HDD 30分
Win7 32bit core5 (bootcamp on iMac) 22分
Win7 32bit core3 (bootcamp on iMac) 22分

最後に

またベータ版ということでバグが潜んでいる可能性が大いにあります。お気づきの点やご要望などありましたら下記までお知らせ下さい。

松村真宏 <>
三浦麻子 <>

宣伝

2009年春に三浦さんとの共著で「人文・社会科学のためのテキストマイニング」を出版しました。この本のウリは、なんといっても独自に開発したテキストマイニングのフリーソフトウェアTTMの導入から使い方まで詳しく解説していることです。テキストマイニングは技術的・金銭的理由から初心者には敷居がとても高いのですが、めんどくさい処理は全てTTMが行いますので、この本を読んでいただければ誰でも簡単にテキストマイニングを行うことができるようになっています。また、OpenOffice, R, Wekaとの連携、分析手法の詳細、応用事例などにも力を入れており、これ一冊でテキストマイニングの基礎的な知識を網羅的に習得することができますので、人文・社会科学系の学部の教科書や副読書としても最適な内容になっています。

TTMを用いた研究事例

  1. 加藤恭子・川浦康至:人はなぜブログを読むのか,東京経済大学コミュニケーション学会,コミュニケーション科学 第26号, pp. 91--103 (2007) [PDF]
  2. 大沼亜樹:自然派化粧品を求める消費者心理の分析,筑波大学大学院システム情報工学研究科修士論文 (2008) [PDF]
  3. 日比野愛子:Emerging Technology をめぐる「語り」の分析手法-言説分析・内容分析・テキストマイニングによるクローン報道のイラストレーション-,科学技術社会論学会2008年度年次研究大会予稿集 (2008) [PDF]
  4. 寺尾敦:携帯電話とテキストマイニングを利用した学生の理解変化の追跡,第1回ケータイ活用教育研究会 (2008.12.20) [PDF]
  5. 武田寛:企業における経営理念の現状,日本マーケティング・サイエンス学会第86回研究大会 (2009) [PDF]
  6. 三浦麻子・川浦康至:内容分析による知識共有コミュニティの分析:投稿内容とコミュニティ観から,社会心理学研究 25(2) (2009) [CiNii]
  7. 前川隆史・松村真宏:求職者のニースと求人企業の訴求点に着目した派遣・新卒比較〜求人サイトと電子掲示板の内容分析〜,日本社会情報学会関西支部第18回研究会 pp. 15--24 (2009) [PDF]
  8. 岡本健:観光旅行者のホスピタリティ認知計測に関する研究:アニメ聖地巡礼ノートの分析から,日本ホスピタリティ・マネジメント学会第18回全国大会研究発表要旨集, pp.22-23 (2009) [HTML]
  9. 三浦麻子・楠見孝・小倉加奈代:がん・アトピー性皮膚炎患者・家族のインターネット行動(2)―インターネット上の情報への期待に関するテキストマイニングによる検討―,日本社会心理学会第50回大会,日本グループ・ダイナミックス学会第56回大会合同大会論文集 (2009) [PDF]
  10. 渡辺靖仁,八角隆夫:食に関するリスク補償の基礎と背景補遺,共済総合研究 第56号,pp. 117--134 (2009.9) [PDF]
  11. 後藤省二,諏訪博彦,太田敏澄:地域SNSの目的と効果の関連性に関する分析,人工知能学会 第6回知識流通ネットワーク研究会,(2009) [PDF]
  12. 神庭直子,石川利江:成人アトピー性皮膚炎患者における疾患に対する認知――テキストマイニングによる探索的検討――,桜美林論集(桜美林大学), 36, 143-152 (2009) [PDF]
  13. 農林総合研究センター(食品開発・流通担当):ブログデータによる農産物マーケティングリサーチ,農林総合研究センター 新技術情報2009年度版 [PDF]
  14. 児玉剛史,村上雅洋,渡邉憲二,菊島良介,茅野甚治郎:経営および地域における課題に関する認定農業者の意識構造へのアプローチー自由記入欄の定量的分析,農村研究 第108号,pp. 53--63 (2009) [PDF]
  15. 佐藤善之:オタク絵馬とは何か:宮城縣護國神社の絵馬調査結果とその分析,CATS叢書 第4号, pp.115--127 (2010) [HTML]
  16. 山村高淑,岡本健:次世代まちおこしとツーリズム:鷲宮町・幸手市に見る商店街振興の未来,CATS叢書 第4号 (2010) [HTML]
  17. 石倉義博:釜石の希望と誇り,―同窓会調査自由記述の分析から―,『社会科学研究』第61巻5・6合併号 (2010.3.24) [PDF]
  18. 井坪将,木村文則,手塚太郎,前田亮:古典史料を対象とした情報抽出および情報の可視化,DEIM Forum 2010 (2010) [PDF]
  19. 松山由美子:保育者養成における「保育実践力」育成のための学びの場 - 模擬保育と学外実習に関する質問紙調査の結果からの考察 -,四天王寺大学紀要 第49号, pp. 197--212 (2010.3) [PDF]
  20. 岡部翔太:高速道路料金大幅引き下げ政策の賛否意思決定構造に関する考察,筑波大学大学院博士課程 システム情報工学研究科修士論文 (2010.3) [PDF]
  21. 真田治子:特集「2008年・2009年における日本語学界の展望」数理的研究,日本語の研究 第6巻3号 (2010.7)
  22. 松村真宏,三浦麻子,金明哲:テキストマイニングツール TTM (TinyTextMiner) の理念と使い方,統計関連学会連合大会 (2010.9) [PDF]
  23. 三浦麻子:人は知識共有コミュニティに何を求めているのか(2)―自由記述のテキストマイニング―,第51回日本社会心理学会大会発表論文集 P01-38 (2010.9) [WEB]
  24. 田中善大,三田村仰,野田航,馬場ちはる,嶋崎恒雄,松見淳子:行動的支援の研修プログラムが主任保育士の支援行動に及ぼす効果の検討,日本行動分析学会第28回年次大会 (2010.10) [PDF(ポスター)][PDF(資料)]
  25. 松村真宏,高木章宏:写真の仰俯角と撮影理由に基づく単語の空間定位の分析,Designシンポジウム2010 (2010.11)
  26. 越中康治:体罰に関する大学生の信念に及ぼす意見交換の影響,宮城教育大学紀要第45巻 (2010) [PDF]
  27. 粕渕孝文,松村真宏:サービス利用者の要望に含まれる語句とその実現率との関係,経営情報学会誌,19巻4号, pp. 385--393 (2011.3)
  28. 清水航:レビューの語の重みを考慮したテキストマイニングによるゲームソフトの評判分析,法政大学大学院工学研究科システム工学専攻 2010年度修士論文 (2011)
  29. 仕事能力把握に向けた新たなアプローチ —研究開発の動向、評価の現状、職務の共通性からの検討—,JILPT資料シリーズNo.88,独立行政法人労働政策研究・研修機 (2011.3.31) [PDF]
  30. 村上嘉代子,川村秀憲:外国人から見た日本旅行 ―英語ブログからの観光イメージ分析―,人工知能学会誌 26巻3号, pp. 286-293 (2011.5)
  31. 岡本香:通信媒体を用いた対人コミュニケーションに関する認知の検討,日本社会心理学会大会発表論文集 (2011) [PDF]
  32. 寺尾敦,村井潤一郎,杉澤武俊,山田剛史:テキストマイニングを利用した授業理解の即時フィードバック,日本テスト学会第9回大会 (2011) [PDF]
  33. 大野弘祐,鈴木康:テキストマイニングを活用したSWプロジェクトの品質管理事例,ソフトウェア品質シンポジウム2011 (2011) [PDF]
  34. 栢野彰秀,玉井康之,赤田裕喜彦,西出勉,近江道郎,倉賀野志郎,山瀬一史,村上知子,小林宏明:釧路校学部学生から見た「教職チェックリスト」の特徴 : クラスター分析による「学習指導力」の学年別認識,北海道教育大学紀要教育科学編61巻2号 (2011.2) [WEB]
  35. 朝野熙彦(編著):アンケート調査入門,東京図書 (2011.10) [Amazon]
  36. 神庭直子:成人アトピー性皮膚炎患者のソーシャルサポートと認知に関する健康心理学的研究,桜美林大学大学院 国際学研究科 環太平洋地域文化専攻,2011年度博士学位論文 (2011) [PDF](要旨のみ)
  37. Yasuda, M. An Investigation and clustering of the keywords for color response: Using text mining. The 20th International Congress of Rorschach and Projective Methods, Tokyo, Japan (2011.7) [PDF](要旨のみ)
  38. 児玉耕太,竹本寛秋:サイエンス・カフェに「粘菌」の実物を持ち込むことから見る, 来場者の意識変化に関する考察 : 科学技術コミュニケーションにおける実体験の重要性,科学技術コミュニケーション,No. 10, pp. 16--32 (2011.12) [PDF]
  39. 永井靖人:不審者からの攻撃に対する女子青年の抵抗方略に関する予備的検討,名古屋学芸大学短期大学部研究紀要,第9号2012:21-28 (2011) [PDF]
  40. 齋藤郎宏:日本におけるテキストマイニングの応用,The Society for Economic Studies, The University of Kitakyushu, Working Paper Series No. 2011-12. (2012) [PDF]
  41. 労働政策研究・研修機構:職務構造に関する研究ー職業の数値解析と職業移動からの検討ー,労働政策研究報告書,No. 146 (2012) [PDF]
  42. 安田傑:ロールシャッハ法における,色彩反応の可能性を示すキーワードの調査~テキストマイニングを用いて~,心理臨床学研究 30巻5号(in press)

更新履歴