TTM: TinyTextMiner β version
TTMはテキストマイニングの前処理のためのフリーソフトウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成します。最新版はバージョン 0.66 です。Windows XP, Vista, 7で動作を確認しています。
以下の3つのソフトウェアをインストールします。
| 説明 | |
![]() |
TTM本体です。任意の場所に置いてください |
| MeCab | 工藤拓氏の開発した形態素解析器です。自己解凍インストーラ (mecab-X.X.exe) をダウンロードしてインストールしてください。なお文字コードは「Shift-JIS」を選択してください。最新版は mecab-0.98.exe です。 |
| CaboCha | 工藤拓氏の開発した構文解析器です。自己解凍インストーラ (cabocha-X.XX.exe) をダウンロードしてインストールしてください。最新版は cabocha-0.53.exe です。 |
サンプルファイルを置いておきます。ダウンロードしてTTMを試してみてください。
| 説明 | フォーマット | |
| bocchan.csv | 入力ファイル | 1列目にタグ、2列目にテキストを配置したCSVファイル |
| keyword.txt | キーワードファイル | 改行(もしくは半角スペース)区切り |
| synonym.txt | 同義語ファイル | 改行(もしくは半角スペース)区切り |
| noise.txt | 不要語ファイル | 改行(もしくは半角スペース)区切り |
こちらに「人文・社会科学のためのテキストマイニング」(誠信書房)で用いているサンプルデータを置いておきます。
| 節 | 説明 | |
| sampledata.csv | 3.1.1節 | 入力ファイルの作成 |
| sample_bojgp.csv | 3.2.1節 | 日本銀行『金融経済月報』データ |
| sample_chiebukuro.csv | 3.3.1節 | 質問紙調査の自由記述回答データ |
| bocchan.csv | 5.2節 | 夏目漱石『坊っちゃん』データ |
TTMは
をダブルクリックすると起動します。TTMの使い方は非常に簡単なので、サンプルデータをダウンロードして試していただければ分かると思います。
ストップウォッチで手動測定した簡易ベンチマークです。バージョン0.64で大幅に解析速度が上がりました。
マシン:SONY VGC-RA71P(2004年10月発売)
環境等:Win XP Pro, SP3, Pen4 3.6GHz, 2GB RAM
データ:夏目漱石「坊っちゃん」bocchan.csv(約88,000文字)
| v0.64 | v0.63 | |
| ノーマル | 6秒 | 30秒 |
| ノーマル+進捗非表示 | 4秒 | 13秒 |
| ノーマル+係り受け解析 | 29秒 | 4分23秒 |
| ノーマル+進捗非表示+係り受け解析 | 19秒 | 2分15秒 |
またベータ版ということでバグが潜んでいる可能性が大いにあります。お気づきの点やご要望などありましたら下記までお知らせ下さい。
松村真宏 <>三浦麻子 <>
2009年春に三浦さんとの共著で「人文・社会科学のためのテキストマイニング」を出版しました。この本のウリは、なんといっても独自に開発したテキストマイニングのフリーソフトウェアTTMの導入から使い方まで詳しく解説していることです。テキストマイニングは技術的・金銭的理由から初心者には敷居がとても高いのですが、めんどくさい処理は全てTTMが行いますので、この本を読んでいただければ誰でも簡単にテキストマイニングを行うことができるようになっています。また、OpenOffice, R, Wekaとの連携、分析手法の詳細、応用事例などにも力を入れており、これ一冊でテキストマイニングの基礎的な知識を網羅的に習得することができますので、人文・社会科学系の学部の教科書や副読書としても最適な内容になっています。