TWC: TinyWebCrawler β version
TWC: TinyWebCrawler β version
Last update: 201-01-16
Naohiro Matsumura
はじめに
Yahoo!ブログ検索を利用して、ブログを収集するフリーウェアです。収集したブログ記事は
検索キーワード,日付,記事タイトル,記事URL,記事本文
の形式のCSVファイル(サンプル)として保存しますので、TTMなどを利用すればテキストマイニングに役立てることができます。Windows版とMac OSX版があり、最新バージョンは 0.09 です。
インストール for Win
ソフトウェア | 説明 |
twc.exe | TWC本体。任意の場所に置いてください。 |
インストール for Mac
Mac版TWCを起動すると
Use of uninitialized value in concatenation (.) or string at ... Tcl.pm line 394, <DATA> line 855.
のエラーメッセージが出ますが無視してください。
使い方
TWCはをダブルクリックすると起動します。使い方は非常に簡単なので、起動すれば分かると思います。なお、Mac版TWCに日本語キーワードを入力するときは、コピー(Ctrl+c)&ペースト(Ctrl+v)で貼りつけてください。
スクリーンショット
(左がWindows版、右がMac OSX版)
謝辞
TWCは明治大学の水野誠先生のご要望により生まれました。
また、立命館大学の樋口耕一先生より様々な改善案(v.004作成への要望・v.005作成用パッチ)を頂きました。
記して感謝いたします。
履歴
- 2012-01-16 v0.09 Yahoo!ブログ検索のAPI変更に伴う修正
- 2011-12-20 アイコンを変更(リンク不要&商用利用OKのこれを使いました)
- 2011-12-16 v0.08 HTTPプロキシの設定を追加(というか復活)
- 2011-07-01 v0.07 Mac版のみGUIのモジュールをPerl/TkからTkxに変更
- 2010-09-13 Mac OSX版のインストール方法を修正
- 2010-09-04 v0.06 ダウンロードの非同期化による3倍強の高速化
- 2009-12-16 v0.05 Mac OSX版を公開
- 2009-12-04 v0.05 以下の6点を変更
- 文字コード判別ルーチンの改良
- RSSと同じ順番でCSVにデータが入るように変更
- HTMLクエリーの検索対象文字列部分にURLエンコードを施すように変更(コンソールからブラウザにコピー&ペーストしやすいように)
- HTMLクエリーに「&sq=M」を追加(Webのデフォルトにあわせて)
- 取得したRSSファイルも保存するように変更
- 環境変数HTTP_PROXYがセットされている場合は、自動的にその内容を読み込むように変更
- 2009-12-02 v0.04 以下の4点を変更
- HTML::ParseからHTML::ExtractContentを使うように変更
- 出力ファイルにDATE列を追加
- 検索条件に検索対象期間を追加
- s/改行+/ /g
- 2008-10-02 v0.03 HTTPプロキシの設定を追加
- 2008-08-01 ttm.exeの試用期限を解除(PDKにスタンダードライセンスを適用)
- 2008-07-29 一般公開
- 2008-07-25 v0.02 表記ゆれの追加、フォントの修正
- 2008-07-24 TWC v0.01 とりあえず完成