TTM: TinyTextMiner β version
TTM: TinyTextMiner β version
Last update: 2012-01-18
松村 真宏
<>
三浦 麻子
<>
はじめに
TTMはテキストマイニングの前処理のためのフリーウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成します。日本語と英語に対応しています。Windows版とMac OSX版があります。最新版はバージョン TTM (v0.78 for win, v.079 for mac) です。
インストール for Win
以下の3つのソフトウェアをインストールします。構文解析を行わないときはCaboChaのインストールは不要です。また、英文テキストを解析する場合はMeCabとCaboChaのインストールは不要です。
インストール for Mac OSX (10.5 & 10.6)
Mac OSX版はOSX10.5以降に内蔵されているMeCabを利用しますので、MeCabのインストールは不要です。また、構文解析には対応していません。
Mac版TTMを起動すると
Use of uninitialized value in concatenation (.) or string at ... Tcl.pm line 394, <DATA> line 855.
のエラーメッセージが出ますが無視してください。
使い方
TTMは をダブルクリックすると起動します。TTMの使い方は非常に簡単なので、サンプルデータをダウンロードして試していただければ分かると思います。
英文テキスト
「詳細設定」タブ内の「English text」にチェックを入れると、英文テキストを分析できます。品詞選択、Stemminigの選択、Penn Treebank Tag setの選択、キーワードファイル・同義語ファイル・不要語ファイルに対応しています。品詞の推定にはhunpos を使っています(精度等は論文 を参照してください)。
スクリーンショット
Windows版
Mac OSX版
サンプルデータ
サンプルデータを置いておきます。各種ファイルのフォーマットの参考にしてください。
拙書「人文・社会科学のためのテキストマイニング 」で用いているサンプルデータも置いておきます。
FAQ
「ファイルが読めません」「ファイルの一部が読めていません」「分析が途中で止まります」といった質問をよく受けるのですが、その原因はだいたい同じなので、原因と対策を以下にまとめておきます。
原因 対策
空のセルがある。 その行を削除。
半角記号が含まれている。 ExcelのJIS関数 等を使って全角文字に変換。
セル内に改行が含まれている。 ExcelのCLEAN関数 等を使って改行文字を削除。
機種依存文字(①②③や㍉など)が含まれている。 文字化けするので削除。
MeCabのインストールパスに日本語が混ざっている。 TTMから認識されないのでインストール先を変える。
64bit版Windows7で動きません。 64bit版Windows7ではMeCabが「Program Files (x86)」にインストールされるのでTTMの標準設定では見つけられません。「選択」ボタンを押して、mecab.exeの場所を手動で設定してください。
Mac OSX Lion (10.7) で動きません。 Mac OSX Lionを入手するまでお待ちください…。
パフォーマンス
10万件(90MB, タグは150種)のテキストデータに対する処理時間は以下の通りです。
機種 時間
Win7 64bit core7 SSD 17分
Win7 64bit core7 HDD 24分
Win7 64bit core5 HDD 26分
Win7 64bit core5 HDD ノート 30分
WinXP 32bit core2 HDD 30分
Win7 32bit core5 (bootcamp on iMac) 22分
Win7 32bit core3 (bootcamp on iMac) 22分
最後に
またベータ版ということでバグが潜んでいる可能性が大いにあります。お気づきの点やご要望などありましたら下記までお知らせ下さい。
松村真宏
<>
三浦麻子
<>
宣伝
2009年春に三浦さんとの共著で「人文・社会科学のためのテキストマイニング」を出版しました。この本のウリは、なんといっても独自に開発したテキストマイニングのフリーソフトウェアTTM の導入から使い方まで詳しく解説していることです。テキストマイニングは技術的・金銭的理由から初心者には敷居がとても高いのですが、めんどくさい処理は全てTTMが行いますので、この本を読んでいただければ誰でも簡単にテキストマイニングを行うことができるようになっています。また、OpenOffice, R, Wekaとの連携、分析手法の詳細、応用事例などにも力を入れており、これ一冊でテキストマイニングの基礎的な知識を網羅的に習得することができますので、人文・社会科学系の学部の教科書や副読書としても最適な内容になっています。
TTMを用いた研究事例
加藤恭子・川浦康至:人はなぜブログを読むのか,東京経済大学コミュニケーション学会,コミュニケーション科学 第26号 , pp. 91--103 (2007) [PDF ]
大沼亜樹:自然派化粧品を求める消費者心理の分析,筑波大学大学院システム情報工学研究科修士論文 (2008) [PDF ]
日比野愛子:Emerging Technology をめぐる「語り」の分析手法-言説分析・内容分析・テキストマイニングによるクローン報道のイラストレーション-,科学技術社会論学会2008年度年次研究大会予稿集 (2008) [PDF ]
寺尾敦:携帯電話とテキストマイニングを利用した学生の理解変化の追跡,第1回ケータイ活用教育研究会 (2008.12.20) [PDF ]
武田寛:企業における経営理念の現状,日本マーケティング・サイエンス学会第86回研究大会 (2009) [PDF ]
三浦麻子・川浦康至:内容分析による知識共有コミュニティの分析:投稿内容とコミュニティ観から,社会心理学研究 25(2) (2009) [CiNii ]
前川隆史・松村真宏:求職者のニースと求人企業の訴求点に着目した派遣・新卒比較〜求人サイトと電子掲示板の内容分析〜,日本社会情報学会関西支部第18回研究会 pp. 15--24 (2009) [PDF ]
岡本健:観光旅行者のホスピタリティ認知計測に関する研究:アニメ聖地巡礼ノートの分析から,日本ホスピタリティ・マネジメント学会第18回全国大会研究発表要旨集, pp.22-23 (2009) [HTML ]
三浦麻子・楠見孝・小倉加奈代:がん・アトピー性皮膚炎患者・家族のインターネット行動(2)―インターネット上の情報への期待に関するテキストマイニングによる検討―,日本社会心理学会第50回大会,日本グループ・ダイナミックス学会第56回大会合同大会論文集 (2009) [PDF ]
渡辺靖仁,八角隆夫:食に関するリスク補償の基礎と背景補遺,共済総合研究 第56号,pp. 117--134 (2009.9) [PDF ]
後藤省二,諏訪博彦,太田敏澄:地域SNSの目的と効果の関連性に関する分析,人工知能学会 第6回知識流通ネットワーク研究会,(2009) [PDF ]
神庭直子,石川利江:成人アトピー性皮膚炎患者における疾患に対する認知――テキストマイニングによる探索的検討――,桜美林論集(桜美林大学), 36, 143-152 (2009) [PDF ]
農林総合研究センター(食品開発・流通担当):ブログデータによる農産物マーケティングリサーチ,農林総合研究センター 新技術情報2009年度版 [PDF ]
児玉剛史,村上雅洋,渡邉憲二,菊島良介,茅野甚治郎:経営および地域における課題に関する認定農業者の意識構造へのアプローチー自由記入欄の定量的分析,農村研究 第108号,pp. 53--63 (2009) [PDF ]
佐藤善之:オタク絵馬とは何か:宮城縣護國神社の絵馬調査結果とその分析,CATS叢書 第4号, pp.115--127 (2010) [HTML ]
山村高淑,岡本健:次世代まちおこしとツーリズム:鷲宮町・幸手市に見る商店街振興の未来,CATS叢書 第4号 (2010) [HTML ]
石倉義博:釜石の希望と誇り,―同窓会調査自由記述の分析から―,『社会科学研究』第61巻5・6合併号 (2010.3.24) [PDF ]
井坪将,木村文則,手塚太郎,前田亮:古典史料を対象とした情報抽出および情報の可視化,DEIM Forum 2010 (2010) [PDF ]
松山由美子:保育者養成における「保育実践力」育成のための学びの場 - 模擬保育と学外実習に関する質問紙調査の結果からの考察 -,四天王寺大学紀要 第49号, pp. 197--212 (2010.3) [PDF ]
岡部翔太:高速道路料金大幅引き下げ政策の賛否意思決定構造に関する考察,筑波大学大学院博士課程 システム情報工学研究科修士論文 (2010.3) [PDF ]
真田治子:特集「2008年・2009年における日本語学界の展望」数理的研究,日本語の研究 第6巻3号 (2010.7)
松村真宏,三浦麻子,金明哲:テキストマイニングツール TTM (TinyTextMiner) の理念と使い方,統計関連学会連合大会 (2010.9) [PDF ]
三浦麻子:人は知識共有コミュニティに何を求めているのか(2)―自由記述のテキストマイニング―,第51回日本社会心理学会大会発表論文集 P01-38 (2010.9) [WEB ]
田中善大,三田村仰,野田航,馬場ちはる,嶋崎恒雄,松見淳子:行動的支援の研修プログラムが主任保育士の支援行動に及ぼす効果の検討,日本行動分析学会第28回年次大会 (2010.10) [PDF (ポスター)][PDF (資料)]
松村真宏,高木章宏:写真の仰俯角と撮影理由に基づく単語の空間定位の分析,Designシンポジウム2010 (2010.11)
越中康治:体罰に関する大学生の信念に及ぼす意見交換の影響,宮城教育大学紀要第45巻 (2010) [PDF ]
粕渕孝文,松村真宏:サービス利用者の要望に含まれる語句とその実現率との関係,経営情報学会誌,19巻4号, pp. 385--393 (2011.3)
清水航:レビューの語の重みを考慮したテキストマイニングによるゲームソフトの評判分析,法政大学大学院工学研究科システム工学専攻 2010年度修士論文 (2011)
仕事能力把握に向けた新たなアプローチ —研究開発の動向、評価の現状、職務の共通性からの検討—,JILPT資料シリーズNo.88,独立行政法人労働政策研究・研修機 (2011.3.31) [PDF ]
村上嘉代子,川村秀憲:外国人から見た日本旅行 ―英語ブログからの観光イメージ分析―,人工知能学会誌 26巻3号, pp. 286-293 (2011.5)
岡本香:通信媒体を用いた対人コミュニケーションに関する認知の検討,日本社会心理学会大会発表論文集 (2011) [PDF ]
寺尾敦,村井潤一郎,杉澤武俊,山田剛史:テキストマイニングを利用した授業理解の即時フィードバック,日本テスト学会第9回大会 (2011) [PDF ]
大野弘祐,鈴木康:テキストマイニングを活用したSWプロジェクトの品質管理事例,ソフトウェア品質シンポジウム2011 (2011) [PDF ]
栢野彰秀,玉井康之,赤田裕喜彦,西出勉,近江道郎,倉賀野志郎,山瀬一史,村上知子,小林宏明:釧路校学部学生から見た「教職チェックリスト」の特徴 : クラスター分析による「学習指導力」の学年別認識,北海道教育大学紀要教育科学編61巻2号 (2011.2) [WEB ]
朝野熙彦(編著):アンケート調査入門,東京図書 (2011.10) [Amazon ]
神庭直子:成人アトピー性皮膚炎患者のソーシャルサポートと認知に関する健康心理学的研究,桜美林大学大学院 国際学研究科 環太平洋地域文化専攻,2011年度博士学位論文 (2011) [PDF ](要旨のみ)
Yasuda, M. An Investigation and clustering of the keywords for color response: Using text mining. The 20th International Congress of Rorschach and Projective Methods, Tokyo, Japan (2011.7) [PDF ](要旨のみ)
児玉耕太,竹本寛秋:サイエンス・カフェに「粘菌」の実物を持ち込むことから見る, 来場者の意識変化に関する考察 : 科学技術コミュニケーションにおける実体験の重要性,科学技術コミュニケーション,No. 10, pp. 16--32 (2011.12) [PDF ]
永井靖人:不審者からの攻撃に対する女子青年の抵抗方略に関する予備的検討,名古屋学芸大学短期大学部研究紀要,第9号2012:21-28 (2011) [PDF ]
齋藤郎宏:日本におけるテキストマイニングの応用,The Society for Economic Studies, The University of Kitakyushu, Working Paper Series No. 2011-12. (2012) [PDF ]
労働政策研究・研修機構:職務構造に関する研究ー職業の数値解析と職業移動からの検討ー,労働政策研究報告書,No. 146 (2012) [PDF ]
安田傑:ロールシャッハ法における,色彩反応の可能性を示すキーワードの調査~テキストマイニングを用いて~,心理臨床学研究 30巻5号(in press)
更新履歴
2012-01-18 v0.79(Mac) 入力ファイルの改行コードの判定を追加
2012-01-16 v0.78 メモリ消費量を改善,Mac版TTMでのiconvのエラーへの対処
2012-01-13 v0.77 メモリ消費量を改善,MeCabのinput-buffer overflowへの対処
2012-01-12 v0.76 ファイル読み込みルーチンを修正
2012-01-11 64bit版Windows版を使う場合のFAQを追加
2011-08-25 v0.75(Win) GUIのモジュールをTkxからPerl/Tkに変更(PDK7.3が対応しているPerlではTkx::tk___chooseDirectory()がマルチバイトに対応していないため)
2011-08-05 v0.74(Win) 英文テキストにおける品詞選択機能を追加
2011-07-02 v0.73(Mac) GUIのモジュールをPerl/TkからTkxに変更
2010-12-19 ActivePerlのバージョンアップに伴いリンク先を修正
2010-11-10 Mac OSX版の不要語ファイルを読み込めない不具合を修正
2010-09-13 Mac OSX版のインストール方法を修正
2010-09-12 v0.71 (for Mac OSX) Mac版Excelで作成した入力ファイルを読み込めない不具合、およびキーワードファイルを読み込めない不具合を修正。FAQを修正
2010-09-04 Mac OSX版を追加
2010-08-03 FAQを追加
2010-04-26 v0.70 英語モードでもキーワードファイル・定義語ファイル・不要語ファイルを利用できるように修正。プログレスバーの表示を修正
2010-04-26 v0.69 MeCabをUSBメモリにインストールしたときの不具合を修正
2010-04-23 v0.68 グラフィカルなプログレスバーの廃止(処理速度も向上)、コンソール出力メッセージの変更(エラーメッセージの表示など)
2010-04-22 v0.67 英文テキストの分析機能を追加、英文のサンプルデータを追加、ttm5の表示列数が1000列を超えていた不具合を修正、synomym.txtに全角スペースが使われていた不具合を修正
2010-03-08 v0.66 Windows7で動作しない不具合、ファイル選択を繰り返すと落ちる不具合を修正
2010-01-28 v0.65 名詞(副詞可能)を取りこぼした不具合を修正
2009-04-03 mecab-0.98pre1.exeへのリンクを追加
2009-03-26 v0.64 高速化。構文解析時にも品詞を選択ができるように変更
2009-03-25 v0.63 ロゴを一新
2008-12-19 v0.62 「定義語」を「キーワード」に変更。設定ファイルの名前を変更。サンプルファイルを変更
2008-12-17 v0.61 出力ファイル名をttm0〜ttm5からttm1〜ttm6に変更
2008-12-12 v0.60 「詳細設定」タブに「進捗状況を非表示にして処理を高速化する」を追加
2008-11-18 v0.59 表記の修正(「ストップワード」→「不要語」、「ユーザ定義語」→「定義語」)
2008-11-09 v0.58 ttm4とttm5の表示列数を最大1000列に戻した。文字コード関連の不具合を修正
2008-11-05 v0.57 ttm4とttm5の表示列数の制限をなくした
2008-10-15 v0.56 同義語処理の不具合を修正
2008-10-01 v0.55 複合名詞の処理が無効になっていた不具合を修正
2008-09-20 v0.54 文字コード判別ルーチンを改良
2008-09-10 v0.53 出力ファイルのデフォルト設定を変更。出力ファイルに含める語の条件を微修正
2008-08-30 v0.52 品詞の選択を追加。語の閾値の不具合を修正
2008-08-01 ttm.exeの試用期限を解除(PDKにスタンダードライセンスを適用)
2008-07-28 v0.51 TinyTextMinerに名称変更。ファイル名をttm.exeに変更
2008-07-22 一般公開
2008-07-20 v0.50 Perk Dev Kit 7 でビルド + Bug fix
2008-06-?? v0.4x 係り受け解析を追加 + Bug fix
2008-06-?? v0.3x GUIを実装 + Bug fix