TTM: TinyTextMiner β version

TTM: TinyTextMiner β version

Last update: 2010-07-07
Naohiro Matsumura <>
Asako Miura <>

はじめに

TTMはテキストマイニングの前処理のためのフリーソフトウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成します。日本語と英語に対応しています。最新版はバージョン 0.70 です。Windows XP, Vista, 7で動作を確認しています。

インストール

以下の3つのソフトウェアをインストールします。構文解析を行わないときはCaboChaのインストールは不要です。また、英文テキストを解析する場合はMeCabとCaboChaのインストールは不要です。

説明
TTM本体です。任意の場所に置いてください。
MeCab 工藤拓氏の開発した形態素解析器です。自己解凍インストーラ (mecab-X.X.exe) をダウンロードしてインストールしてください。文字コードは「Shift-JIS」を選択してください。最新版は mecab-0.98.exe です。
CaboCha 工藤拓氏の開発した構文解析器です。自己解凍インストーラ (cabocha-X.XX.exe) をダウンロードしてインストールしてください。最新版は cabocha-0.53.exe です。
(※ CaboCha 0.60preには今のところ対応していません。)

サンプルファイル

サンプルファイルを置いておきます。ダウンロードしてTTMを試してみてください。

説明フォーマット
bocchan.csv 入力ファイル(日本語)1列目にタグ、2列目にテキストを配置したCSVファイル
Joel_on_Software.csv 入力ファイル(英語)1列目にタグ、2列目にテキストを配置したCSVファイル
keyword.txt キーワードファイル改行(もしくは半角スペース)区切り
synonym.txt 同義語ファイル各行が1対多の同義語の対応関係を表し,左端の語に変換される。単語は半角スペース区切り
noise.txt 不要語ファイル改行(もしくは半角スペース)区切り

こちらに「人文・社会科学のためのテキストマイニング」で用いているサンプルデータを置いておきます。

説明
sampledata.csv 3.1.1節入力ファイルの作成
sample_bojgp.csv 3.2.1節日本銀行『金融経済月報』データ
sample_chiebukuro.csv 3.3.1節質問紙調査の自由記述回答データ
bocchan.csv 5.2節夏目漱石『坊っちゃん』データ

使い方

TTMは をダブルクリックすると起動します。TTMの使い方は非常に簡単なので、サンプルデータをダウンロードして試していただければ分かると思います。

英文テキスト

「詳細設定」タブ内の「English text」にチェックを入れると、Saltonのストップワードを除去したのち、語幹だけを取り出して集計します。日本語テキストの場合と同じように、キーワードファイル、同義語ファイル、不要語ファイルも利用できます。

スクリーンショット

 

最後に

またベータ版ということでバグが潜んでいる可能性が大いにあります。お気づきの点やご要望などありましたら下記までお知らせ下さい。

松村真宏 <>
三浦麻子 <>

宣伝

2009年春に三浦さんとの共著で「人文・社会科学のためのテキストマイニング」を出版しました。この本のウリは、なんといっても独自に開発したテキストマイニングのフリーソフトウェアTTMの導入から使い方まで詳しく解説していることです。テキストマイニングは技術的・金銭的理由から初心者には敷居がとても高いのですが、めんどくさい処理は全てTTMが行いますので、この本を読んでいただければ誰でも簡単にテキストマイニングを行うことができるようになっています。また、OpenOffice, R, Wekaとの連携、分析手法の詳細、応用事例などにも力を入れており、これ一冊でテキストマイニングの基礎的な知識を網羅的に習得することができますので、人文・社会科学系の学部の教科書や副読書としても最適な内容になっています。

TTMを用いた研究事例

既知の不具合

更新履歴