TTM: TinyTextMiner β version
TTM: TinyTextMiner β version
Last update: 2010-07-07
Naohiro Matsumura
<>
Asako Miura
<>
はじめに
TTMはテキストマイニングの前処理のためのフリーソフトウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成します。日本語と英語に対応しています。最新版はバージョン 0.70 です。Windows XP, Vista, 7で動作を確認しています。
インストール
以下の3つのソフトウェアをインストールします。構文解析を行わないときはCaboChaのインストールは不要です。また、英文テキストを解析する場合はMeCabとCaboChaのインストールは不要です。
| 説明 |
 |
TTM本体です。任意の場所に置いてください。 |
| MeCab |
工藤拓氏の開発した形態素解析器です。自己解凍インストーラ (mecab-X.X.exe) をダウンロードしてインストールしてください。文字コードは「Shift-JIS」を選択してください。最新版は mecab-0.98.exe です。 |
| CaboCha |
工藤拓氏の開発した構文解析器です。自己解凍インストーラ (cabocha-X.XX.exe) をダウンロードしてインストールしてください。最新版は cabocha-0.53.exe です。
(※ CaboCha 0.60preには今のところ対応していません。) |
サンプルファイル
サンプルファイルを置いておきます。ダウンロードしてTTMを試してみてください。
こちらに「人文・社会科学のためのテキストマイニング」で用いているサンプルデータを置いておきます。
使い方
TTMは
をダブルクリックすると起動します。TTMの使い方は非常に簡単なので、サンプルデータをダウンロードして試していただければ分かると思います。
英文テキスト
「詳細設定」タブ内の「English text」にチェックを入れると、Saltonのストップワードを除去したのち、語幹だけを取り出して集計します。日本語テキストの場合と同じように、キーワードファイル、同義語ファイル、不要語ファイルも利用できます。
スクリーンショット
最後に
またベータ版ということでバグが潜んでいる可能性が大いにあります。お気づきの点やご要望などありましたら下記までお知らせ下さい。
松村真宏
<>
三浦麻子
<>
宣伝
2009年春に三浦さんとの共著で「人文・社会科学のためのテキストマイニング」を出版しました。この本のウリは、なんといっても独自に開発したテキストマイニングのフリーソフトウェアTTMの導入から使い方まで詳しく解説していることです。テキストマイニングは技術的・金銭的理由から初心者には敷居がとても高いのですが、めんどくさい処理は全てTTMが行いますので、この本を読んでいただければ誰でも簡単にテキストマイニングを行うことができるようになっています。また、OpenOffice, R, Wekaとの連携、分析手法の詳細、応用事例などにも力を入れており、これ一冊でテキストマイニングの基礎的な知識を網羅的に習得することができますので、人文・社会科学系の学部の教科書や副読書としても最適な内容になっています。
TTMを用いた研究事例
- 加藤恭子・川浦康至:人はなぜブログを読むのか、東京経済大学コミュニケーション学会、コミュニケーション科学 第26号, pp. 91--103 (2007) [PDF]
- 大沼亜樹:自然派化粧品を求める消費者心理の分析、筑波大学大学院システム情報工学研究科修士論文 (2008) [PDF]
- 武田寛:企業における経営理念の現状、日本マーケティング・サイエンス学会第86回研究大会 (2009) [PDF]
- 三浦麻子・川浦康至:内容分析による知識共有コミュニティの分析:投稿内容とコミュニティ観から、社会心理学研究 25(2) (2009) [CiNii]
- 前川隆史・松村真宏:求職者のニースと求人企業の訴求点に着目した派遣・新卒比較〜求人サイトと電子掲示板の内容分析〜、日本社会情報学会関西支部第18回研究会 pp. 15--24 (2009) [PDF]
- 岡本健:観光旅行者のホスピタリティ認知計測に関する研究:アニメ聖地巡礼ノートの分析から、日本ホスピタリティ・マネジメント学会第18回全国大会研究発表要旨集, pp.22-23 (2009) [HTML]
- 佐藤善之:オタク絵馬とは何か:宮城縣護國神社の絵馬調査結果とその分析、CATS叢書 第4号, pp.115--127 (2010) [HTML]
- 山村高淑、岡本健:次世代まちおこしとツーリズム:鷲宮町・幸手市に見る商店街振興の未来、CATS叢書 第4号 (2010) [HTML]
- 井坪将、木村文則、手塚太郎、前田亮:古典史料を対象とした情報抽出および情報の可視化、DEIM Forum 2010 (2010) [PDF]
- 松山由美子:保育者養成における「保育実践力」育成のための学びの場 - 模擬保育と学外実習に関する質問紙調査の結果からの考察 -、四天王寺大学紀要 第49号, pp. 197--212 (2010.3) [PDF]
- 岡部翔太:高速道路料金大幅引き下げ政策の賛否意思決定構造に関する考察、筑波大学大学院博士課程 システム情報工学研究科修士論文 (2010.3) [PDF]
- 真田治子:特集「2008年・2009年における日本語学界の展望」数理的研究、日本語の研究 第6巻3号 (2010.7)
- 松村真宏、三浦麻子、金明哲:テキストマイニングツール TinyTextMiner (TTM) の理念と使い方、統計関連学会連合大会 (2010) [PDF]
既知の不具合
- MeCabのインストール先に日本語が混ざっているとTTMから認識されない。
- 入力ファイルに機種依存文字(①②③や㍉など)やバックスラッシュ(\)が含まれているとTTMが動かない。
更新履歴
-
2010-07-07 TTMを用いた研究事例を追加
-
2010-07-01 TTMを用いた研究事例を追加など
-
2010-04-26 v0.70 英語モードでもキーワードファイル・定義語ファイル・不要語ファイルを利用できるように修正。プログレスバーの表示を修正
-
2010-04-26 v0.69 MeCabをUSBメモリにインストールしたときの不具合を修正
-
2010-04-23 v0.68 グラフィカルなプログレスバーの廃止(処理速度も向上)、コンソール出力メッセージの変更(エラーメッセージの表示など)
-
2010-04-22 v0.67 英文テキストの分析機能を追加、英文のサンプルデータを追加、ttm5の表示列数が1000列を超えていた不具合を修正、synomym.txtに全角スペースが使われていた不具合を修正
-
2010-03-29 TTMを用いた研究事例を2つ追加(武田論文、岡本論文)
-
2010-03-08 v0.66 Windows7で動作しない不具合、ファイル選択を繰り返すと落ちる不具合を修正
-
2010-01-28 v0.65 名詞(副詞可能)を取りこぼした不具合を修正
-
2009-09-18 TTMを用いた研究事例を2つ追加(加藤・川浦論文、大沼論文)
-
2009-09-03 TTMを用いた研究事例を追加(前川・松村論文)
-
2009-05-08 TTMを用いた研究事例を追加(三浦・川浦論文)
-
2009-04-24 「人文・社会科学のためのテキストマイニング」(誠信書房)の紹介を追加
-
2009-04-03 mecab-0.98pre1.exeへのリンクを追加
-
2009-03-31 簡易ベンチマーク結果を追加
-
2009-03-26 v0.64 高速化。構文解析時にも品詞を選択ができるように変更
-
2009-03-25 v0.63 ロゴを一新
-
2008-12-19 v0.62 「定義語」を「キーワード」に変更。設定ファイルの名前を変更。サンプルファイルを変更
-
2008-12-17 v0.61 出力ファイル名をttm0〜ttm5からttm1〜ttm6に変更
-
2008-12-12 v0.60 「詳細設定」タブに「進捗状況を非表示にして処理を高速化する」を追加
-
2008-11-18 v0.59 表記の修正(「ストップワード」→「不要語」、「ユーザ定義語」→「定義語」)
-
2008-11-09 v0.58 ttm4とttm5の表示列数を最大1000列に戻した。文字コード関連の不具合を修正
-
2008-11-05 v0.57 ttm4とttm5の表示列数の制限をなくした
-
2008-10-15 v0.56 同義語処理の不具合を修正
-
2008-10-01 v0.55 複合名詞の処理が無効になっていた不具合を修正
-
2008-09-20 v0.54 文字コード判別ルーチンを改良
-
2008-09-10 v0.53 出力ファイルのデフォルト設定を変更。出力ファイルに含める語の条件を微修正
-
2008-08-30 v0.52 品詞の選択を追加。語の閾値の不具合を修正
-
2008-08-01 ttm.exeの試用期限を解除(PDKにスタンダードライセンスを適用)
-
2008-07-28 v0.51 TinyTextMinerに名称変更。ファイル名をttm.exeに変更
-
2008-07-22 一般公開
-
2008-07-20 v0.50 Perk Dev Kit 7でビルド + Bug fix
-
2008-06-?? v0.4x 係り受け解析を追加 + Bug fix
-
2008-06-?? v0.3x GUIを実装 + Bug fix