TTM: TinyTextMiner β version

TTM: TinyTextMiner β version

Last update: 2010-03-08
Naohiro Matsumura <>
Asako Miura <>

はじめに

TTMはテキストマイニングの前処理のためのフリーソフトウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成します。最新版はバージョン 0.66 です。Windows XP, Vista, 7で動作を確認しています。

インストール

以下の3つのソフトウェアをインストールします。

説明
TTM本体です。任意の場所に置いてください
MeCab 工藤拓氏の開発した形態素解析器です。自己解凍インストーラ (mecab-X.X.exe) をダウンロードしてインストールしてください。なお文字コードは「Shift-JIS」を選択してください。最新版は mecab-0.98.exe です。
CaboCha 工藤拓氏の開発した構文解析器です。自己解凍インストーラ (cabocha-X.XX.exe) をダウンロードしてインストールしてください。最新版は cabocha-0.53.exe です。

サンプルファイル

サンプルファイルを置いておきます。ダウンロードしてTTMを試してみてください。

説明フォーマット
bocchan.csv 入力ファイル1列目にタグ、2列目にテキストを配置したCSVファイル
keyword.txt キーワードファイル改行(もしくは半角スペース)区切り
synonym.txt 同義語ファイル改行(もしくは半角スペース)区切り
noise.txt 不要語ファイル改行(もしくは半角スペース)区切り

こちらに「人文・社会科学のためのテキストマイニング」(誠信書房)で用いているサンプルデータを置いておきます。

説明
sampledata.csv 3.1.1節入力ファイルの作成
sample_bojgp.csv 3.2.1節日本銀行『金融経済月報』データ
sample_chiebukuro.csv 3.3.1節質問紙調査の自由記述回答データ
bocchan.csv 5.2節夏目漱石『坊っちゃん』データ

使い方

TTMは をダブルクリックすると起動します。TTMの使い方は非常に簡単なので、サンプルデータをダウンロードして試していただければ分かると思います。

スクリーンショット

 

ベンチマーク

ストップウォッチで手動測定した簡易ベンチマークです。バージョン0.64で大幅に解析速度が上がりました。

マシン:SONY VGC-RA71P(2004年10月発売)
環境等:Win XP Pro, SP3, Pen4 3.6GHz, 2GB RAM
データ:夏目漱石「坊っちゃん」bocchan.csv(約88,000文字)

v0.64 v0.63
ノーマル 6秒 30秒
ノーマル+進捗非表示 4秒 13秒
ノーマル+係り受け解析 29秒 4分23秒
ノーマル+進捗非表示+係り受け解析 19秒 2分15秒

最後に

またベータ版ということでバグが潜んでいる可能性が大いにあります。お気づきの点やご要望などありましたら下記までお知らせ下さい。

松村真宏 <>
三浦麻子 <>

宣伝

2009年春に三浦さんとの共著で「人文・社会科学のためのテキストマイニング」を出版しました。この本のウリは、なんといっても独自に開発したテキストマイニングのフリーソフトウェアTTMの導入から使い方まで詳しく解説していることです。テキストマイニングは技術的・金銭的理由から初心者には敷居がとても高いのですが、めんどくさい処理は全てTTMが行いますので、この本を読んでいただければ誰でも簡単にテキストマイニングを行うことができるようになっています。また、OpenOffice, R, Wekaとの連携、分析手法の詳細、応用事例などにも力を入れており、これ一冊でテキストマイニングの基礎的な知識を網羅的に習得することができますので、人文・社会科学系の学部の教科書や副読書としても最適な内容になっています。

TTMを用いた研究事例

既知の不具合

更新履歴