掲載誌
人工知能学会論文誌, Vol. 22, No. 1, pp. 93--102, 2007.
1. はじめに
アンケートの自由記述欄やコールセンター,電子掲示板に寄せられるメッセージには,商品やサービスへの要望や評判や不満など人々の生の声が溢れている.そのような人々の声を新商品開発やサービス向上に活かすために,メッセージから注目すべきパターンを抽出するテキストマイニングに近年注目が集まっている[那須川 01].ここで述べた「注目すべきパターン」は主にメッセージに現れる文字列の頻出パターンのことであり,顕在化しているニーズを汲み取るために有用である.
しかし,当然のことながら顕在化しているニーズは同業他社も既に気づいていることが多いため,そのようなニーズに基づいたマーケティング戦略は価格競争や他社製品・サービスとの差別化などの点から得策ではない[コトラー 04].したがって,有能なマーケターほど人々の潜在的なニーズに注目し,人々に新たな価値観を気づかせることにより市場を開拓していく.例えば,
- 「コーヒー1杯で500円は高い」という不満の背後にある「1杯180円で立ち飲みもできる店」といった要望[Associé 03]
- 「和食レストランを利用する」という目的の背後にある「家族連れでレジャーを楽しむ」といったライフ・スタイル[IT Pro 03]
などが潜在的なニーズになり,新たな価値観を人々に提供する.このようなニーズはメッセージに表出していないので,これまではテキストマイニングで抽出すべき対象にならなかった.そこで本論文では,あらゆるメッセージはその背後に潜む「問い」に向けて発せられているという仮定[中村 02]に基づき,人々の潜在的な「ニーズ」をこの問いに注目して取り出すことを試みる.
マーケットリサーチの分野では,フォーカスグループ(調査対象に関心を持つ人たち)へのグループインタビューによって潜在的なニーズを発掘することが試みられている[ヴォーン 99].しかし,グループインタビューは手間と費用がかかるので,多くの人から意見を集めることや定期的に行うことは難しい.また,膨大なデータから主観的な意見や評価文を含む文を取り出すことを狙ったアプローチ[立石 01,Morinaga 02,村野 03,Kushal 03,Yu 03]は,顕在化されたニーズにのみ着目しており,潜在的なニーズやメッセージの背後にある問いには注目していない.アンケートから要求意図を含む文を判定する試み[大塚 04]は本研究の問題意識に近いが,我々はもっと広い枠組みとして問いを扱っている.
本論文はまず2章で新情報と旧情報の観点からメッセージの背後に潜む問いを定義する.続く3章と4章で特徴的な格フレームとメッセージの背後に潜む問いを抽出する手法について述べる.5章では提案手法によって実際に抽出された特徴的な格フレームと問いについて考察し,6章で従来手法との比較を行なう.7章で残された課題について述べ,最後に8章で本論文を締めくくる.
2. 問いと新情報と旧情報
本研究で対象とするアンケートの自由記述欄や電子掲示板には,「ファイバーウィッグへのクチコミ投稿」や「あなたが水の節約のためにしていることを教えてください.」 などのテーマが与えられている.参加者(アンケートの回答者・電子掲示板のユーザ)はこの与えられたテーマから想起される事柄のうち,相手(アンケートの実施者・電子掲示板の読者)に伝えたい内容についてのメッセージを回答もしくは投稿する.
ここで,参加者がメッセージに込めた内容を明らかにするために,新情報と旧情報の概念を導入する.旧情報とはある状況において知っていることが前提となっている知識であり,新情報とは新たに付け加えられる知識である[福地 85].上述の場合だと,与えられたテーマは旧情報であり,相手に伝えたい内容が新情報となる.ここで,新情報と旧情報はペアになっていることに着目し,本論文では問いを以下のように定義する.
【定義1】新情報を引き出す疑問文をメッセージの背後に潜む「問い」とする.
つまり,テーマが与えられたときに連想する事柄が問いであり,その問いに向けて発せられるメッセージを介して相手に新情報が伝わると仮定するのである.
なお,新情報と旧情報の区別は世界知識や共有知識などメッセージの外にある状況に依存するので,客観的に判断することは難しい.しかし,旧情報は意志疎通のために共有されていることが前提となっている情報であることから,新情報より頻繁に用いられていると考えられる.そこで本論文では,メッセージ中の語のうち,相対的に頻度の高い語を旧情報,頻度の低い語を新情報と見なすことにする.また,新情報と旧情報は機能文法における概念であるので,混乱を避けるために,問いによって引き出される新情報を{\bf 焦点}と呼ぶことにする.
3. 特徴的な格フレームの抽出
3.1 用言の格フレーム
テキストマイニングでは語順や語の共起関係が利用されることが多いが,これは細かいところは無視して文の骨子を軸にテキストを分析したいという考えからである.しかし,日本語は語順が比較的自由なので,語順や語の共起関係からだけでは文の意味を掴むことは難しい.本研究では最終的には文の背後に潜む問いを取り出すことを狙っているので,文の意味や構造まで捉える必要がある.そのための一つのアプローチとして,本研究では,用言(動詞,形容詞,名詞+判定詞)を基準として,取り得る格要素の関係を表した用言の格フレーム(以下では格フレームと略す)を利用する.用言には多義性があるが,用言の意味は用言の直前の格要素(直前格)によってほぼ一意に決定されるので,用言と直前格の組を単位として用例を収集し,格要素の意味属性の類似度に基づいてクラスタリングを行うことによって用言の多義性の問題は解決できる[河原 02].本研究で用いる格フレームは全て河原らの手法[河原 05]により自動構築したものであり,3.2節で用いるコーパス(Dnews と Dwww)はそれぞれ20年分の新聞記事データ(約2000万文)から自動構築した317924個の用言についての格フレームと,Webページ(約2500万文)から自動構築した485350個の用言についての格フレームからなる.
実際に新聞記事から自動構築された格フレームの一部を表1に示す.「走る」の格フレームを見ると,直前格に「道路」や「路線」がくるときはガ格に「車」や「バス」がくることがわかる.また,直前格に「衝撃」や「ショック」がくるときはノ格に「コメ」や「事件」,ニ格に「業界」や「市場」がくることがわかる.なお,ノ格だけ例外的に直前格にかかる格要素を表している.
表 1. 格フレームの例
用言 ヲ格(直前格) ガ格 |
走る 道路,路線,道,コース,… 車,バス,自転車,車両,… |
用言 ガ格(直前格) 二格 ノ格 |
走る 衝撃,ショック,危機感,… 業界,市場,社内,金融界,… コメ,事件,テロ,最大級,… |
用言 ヲ格(直前格) ガ格 |
食べる 料理,弁当,ご飯,朝食,… 子供,全員,人,園児,… |
3.2 格フレームの特徴度
膨大なデータから構築された格フレームコーパス(DnewsやDwww)は,用言と格要素の一般的な関係を表している.一方,解析対象となる膨大なテキストデータ(対象データ)から構築された格フレームコーパス(Dtarget)は,対象データにおいてよく使われている用言と格要素の関係を表している.したがって,DtargetをDwwwやDnewsと比較すれば,対象データではよく使用されるが一般にはあまり使用されない特徴的な格フレームが抽出できる.そのような特徴的な格フレームを抽出するために,Dtarget中の格フレームc(1つの格フレームに複数の用例がクラスタリングされているときは1つの用言に対して同じ格に複数の要素が存在するので,そのときは用言と格要素のそれぞれの組み合わせを格フレームと呼ぶことにする.)の特徴度(格フレーム特徴度)u(c)を以下の式(1)で定義する.
u(c) = ft(c) / (log (fw(c) + fn(c) + e))・・・ (1)ここで,ft(c)はDtargetにおけるcの頻度,fw(c)はDwwwにおけるcの頻度,fn(c)はDnewsにおけるcの頻度であり,eは自然対数である.つまり,格フレームcがDwwwにもDnewsにも出現していないときはu(c) = ft(c)となり,DwwwやDnewsに多く出現しているほどu(c)の値は低くなる.
例えば,「まぶたに つく」という格フレームc1は5.1節で後述するDtargetに42回出現しているが,DnewsとDwwwには一度も出現していないので,
u(c1) = 42 / log (0+0+e) = 42となる.また,「拍車を かける」という格フレームc2は,同じく5.1節のDtargetで1回,Dnewsで6844回,Dwwwで627回出現しているので,
u(c2) = 1 / log (6844+627+e) = 0.11となる.したがって,「まぶたに つく」の格フレームの方が「拍車を かける」よりも特徴的であると判断できる.
格フレームは,用言の前に格要素を配置するように展開すれば,そのまま意味の通じる文になる.したがって,提案手法で得られた特徴的な格フレームを展開すれば,対象データから特徴的な文が抽出できる.
3.3 表記揺れ
対象データから格フレームを抽出しても,表記揺れの問題が残る.例えば,
まぶたに つく
まぶたに 付く
瞼に 付く
は全く同じ意味の格フレームである.一般に読みが同じで漢字が異なる場合も多く,例えば「つく」と読む漢字にも「付く,着く,突く,憑く」などいろいろある.そこで本研究では,格フレームの読みが全て一致していれば同じ意味の文だと見なし,最も平仮名が用いられていない格フレームに統一した.上記の場合だと「まぶたに つく」と「まぶたに 付く」はそれぞれの特徴度を「瞼に 付く」の特徴度に加えてから削除する.語の読みは形態素解析システム JUMAN [黒橋 99] を用いて調べた.ただし,「洗濯」と「選択」のような同音異義語の判別はできないので,本論文ではそこだけ人手で判断した.また,
まぶたに つく
まぶたに くっつく
も同じ意味であるが,読みが異なる語同士の類似度の判定については今後の課題とする.
4. メッセージの背後に潜む問いの抽出
2章での定義から,新情報を引き出す疑問文が問いである.本研究では,用言と格要素からなる格フレームに着目し,新情報が用言か格要素かによって問いの構造を大きく2タイプに分類する.
用言が新情報のときは問いの焦点は用言になるので,用言を「どうなる/どうする」に置換することによって問いを抽出する.一方,格要素が新情報のときは問いの焦点は格要素になるので,その格要素を「何」に置換することによって問いを抽出する.格要素が2つ以上ある場合も同様であるが,格要素の1つがノ格の場合は「格要素+の+格要素」で一つの対象を表しているのでまとめて扱う.なお,新情報と旧情報の判断は,用言と格要素の対象データにおける出現頻度を比較し,格フレームごとに最も出現頻度の低い語を新情報,それ以外の語を旧情報と見なすことによって行う.
これらをまとめると,格フレームから問いを作成するルールは以下のようになる.
ルール1:用言が新情報の場合 直前格がガ格のときは用言を「どうなる」,それ以外のときは用言を「どうする」に置き換え,文末に「?」をつける.
ルール2:格要素が新情報の場合 格要素を「何」に置き換え,文末に「?」をつける.
ルール3:格要素にノ格が含まれる場合 ノ格の格要素は必ず直前格に係っている[河原 05]ので,「ノ格の格要素+の+直前格」を一つの格要素として扱う.
例えば,「瞼に 付く」という格フレームの場合,「瞼」と「付く」のどちらが新情報になるかによって,異なる問いが生成される.
- 瞼(新情報)に 付く(旧情報)→ 何に 付く?
- 瞼(旧情報)に 付く(新情報)→ 瞼に どうする?
また,「目の 周りに 付く」のように格要素にノ格が含まれる場合は,以下のように「目の周り」をまとめて扱う.
- 目の周り(新情報)に 付く(旧情報)→ 何 に付く?
- 目の周り(旧情報)に 付く(新情報)→ 目の周りに どうする?
上記の例において「何」「どうなる/どうする」に置き換えられた語が問いの焦点となる.
なお,特徴的な格フレームから作られる問いは新規性の高い要望や問題意識への視点を含んでいるので重要である.したがって,同じ問いに変換される格フレームcの格フレーム特徴度u(c)の和をその問いの特徴度(問い特徴度)とすることにより,膨大なテキストデータから特徴的な問いを抽出できる.
5. 実験
5.1 アットコスメからの格フレームおよび問いの抽出
3章,4章で提案した手法の有効性を検討するために,アットコスメに寄せられたメッセージを解析した.アットコスメは 1999 年 12 月に開設された化粧品情報のWebサイトであり,ユーザによる商品のクチコミ投稿が 100 万件以上寄せられているサイトである.
「ファイバーウィッグへのクチコミ投稿」に投稿された 4161 投稿(約 1.6 MB,約84万字)を河原らの手法[河原 05]を用いて解析すると4150 個の用言についての格フレームが得られ,さらに格フレームの表記揺れを吸収すると 3877 個の用言についての格フレームが残った.その格フレーム特徴度の上位 20 を表2,下位 20 を表3に示す.「ファイバーウィッグ」はマスカラの商品名であり,表2の格フレームを見ると「瞼に 付く」「まつげに 慣れる」「繊維が 落ちる」といったユーザの声を知ることができる.一方,表3の格フレームには,「拍車を かける」「人が 多い」といったファイバーウィッグとは関係のない格フレームが並んでいることがわかる.格フレームは,対象データ内では「まぶたに付くどころか,」「まぶたについちゃうかな…」「まぶたについた時に」「まぶたに付くし,」といった多様な表現によって記述されていたものであるが,格フレームを用いることによって表現の多様性が吸収でき,用言と格要素という本質的な関係だけを取り出すことに成功している.また,新聞記事データや Web ページなど世の中の一般的な話題を網羅的に集めたテキストデータから作成した格フレームコーパスと比べることによって,アットコスメに特徴的な文が的確に得られていることがわかる.
表 2. アットコスメにおける格フレーム特徴度の高い格フレーム
順位 | 格フレーム | u | ft | fw | fn |
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. |
瞼に 付く まつげに 慣れる 繊維が 落ちる カールが 落ちる まつ毛が 伸びる 長いが 出る ブラシが 大きい まつ毛が 長くなる マスカラを 使う ボリュームが 出る マスカラを 塗る クレンジングで 落ちる マスカラを 付ける ブラックを 買う マスカラを 試す ボリュームが 足りない 毛に なれる 下が 黒くなる ビューラーを 使う ボリュームが 欲しい |
80.00 40.00 37.00 36.00 35.00 35.00 34.00 33.00 26.32 23.35 23.00 20.00 19.71 16.00 16.00 14.00 14.00 14.00 14.00 13.91 |
80 40 37 36 35 35 34 33 57 65 23 20 35 16 16 14 14 14 14 24 |
0 0 0 0 0 0 0 0 6 25 0 0 13 0 0 0 0 0 0 9 |
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 |
表 2. アットコスメにおける格フレーム特徴度の低い格フレーム
順位 | 格フレーム | u | ft | fw | fn |
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. |
拍車を かける 人が 多い とと 思う 気を 使う 印象を 受ける 力を 発揮 力を つける 条件を 満たす 効果が 出る 事が 多い 手を つける 度が 高い 声を かける 声を 出す 金が かかる 群を 抜く 感を 与える 意見が 多い 効果を 狙う 問題が ない |
0.11 0.11 0.11 0.12 0.12 0.12 0.12 0.12 0.13 0.13 0.13 0.13 0.13 0.13 0.13 0.13 0.13 0.14 0.14 0.14 |
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 |
627 6565 6050 2148 2281 1266 1168 1738 428 2406 1021 933 1288 2010 1174 551 670 343 178 540 |
6844 1 28 1559 1175 2096 2067 1388 2230 39 1378 1330 809 1 620 1182 1041 1288 1390 988 |
また,得られた格フレームから抽出した問いのうち,問い特徴度(格フレームの特徴度の和)の上位の問いとその焦点を表4に示す.表4を見ると,「ファイバーウィッグ」に対するユーザの要望や問題意識が問いと焦点の対応によってはっきりと見てとれる.例えば,「何を 使う?」という問いの焦点には「MFのウォータープルーフ」「ランコムのエターニシル」など様々なマスカラの商品名が挙げられており,「ブラシが どうなる?」という問いの焦点には「細い」や「フィット」といったユーザの意見が見られる.このように相対的な旧情報である「使う」や「ブラシ」を軸として新情報との関係を整理することにより,別々に述べられているユーザの意見を定型的に理解することができる.
表 4. アットコスメにおける問い特徴度の高い問いとその焦点
順位 | 問いと焦点 | Sum of u |
1. | 何を 使う? (MFのウォータープルーフ,ランコムのエターニシル,エレガンスの下地,サンプル,テスティ...(他 142 個)) | 269.82 |
2. | ブラシが どうなる? (細い,フィット,良い,太い,ダメだ,デカイ,あらい,好きだ,汚れる,大きめ,ソフトだ,恐ろし...(他 17 個)) | 165.02 |
3. | まつ毛が どうなる? (当たる,長くなる,下がる,硬くなる,絡まる,カール,ボリュームアップ,抜ける,すだれ,パリ...(他 35 個)) | 152.08 |
4. | まつ毛に どうする? (絡まる,見とれる,のる,もってくる,つける,なれる,合う,いい,重い,悪い,なじむ,憧れる, ...(他 32 個)) | 124.42 |
5. | マスカラを どうする? (上塗り,探す,渡り歩く,重ねる,合わせる,落とす,にじむ,使い分ける,リピート,支持,試す, ...(他 21 個)) | 116.81 |
6. | 何に 付く? (まぶた,目じりのほう,瞼,トコ,内側,きわ,まぶたの目尻,目の回り,目のきわ,まぶたの周辺...(他 29 個)) | 115.20 |
7. | ボリュームが どうなる? (ダメダメ,物足りない,得る,足りない,欲しくなる,凄い,印象,全然,少ない,いまいちだ,違...(他 18 個)) | 85.25 |
8. | が 落ちる? (まつげのカール,繊維,粉,ディグニータ,にもの,毛の方,色,カス,カール,元のカール,毛 | 81.48 |
9. | 繊維が どうなる? (頼りない,多い,細い,ボロボロ,フィルム,絡む,付く,絡みつく,汚くなる,飛び散る,固まる, ...(他 26 個)) | 66.46 |
10. | 何で 落ちる? (マイクレ,パウダー,クレンジング,リムーバー,汗,オイル,あくびの涙,ぬるま湯,洗顔,ビッ...(他 22 個)) | 63.22 |
11. | 私に どうする? (強い,イマイチ,十分だ,ナチュラルだ, NG,よい,合う,駄目だ,最高だ,きつい,ピッタリ,救...(他 33 個)) | 61.08 |
12. | 何に 使う? (仕上げ,泊りの日,マスカラのあと,下地のあと,スポーツの際,薄化粧の際,薄化粧の際,最後...(他 39 個)) | 58.74 |
13. | マスカラが どうなる? (多い,溶ける,にじむ,見つかる,なくなる,のる,苦手だ,落ちる,好評,取れる,抜ける,欲しい...(他 17 個)) | 57.01 |
14. | 何を 買う? (ブラウン,ヴィセのを,落とし,ナチュラルブラウン,ファイバーウイッグ,マスカラコート,ブ...(他 22 個)) | 56.76 |
15. | 何が 良い? (伸び,バサバサ,アナスイの方,クチコミの評判,発色,デジャブのマスカラ,皆さんのクチコミ...(他 26 個)) | 54.75 |
16. | 何を 付ける? (カール,ボリュームマスカラ,フルアンドソフト,カバーガールのマラソン,アンプリシル,ワン...(他 43 個)) | 52.42 |
17. | 何を 使用? (クレンジング,ヴァティジニアス,ヘレナのヴァティジニアス,コンタクト,ドラマティカルア...(他 31 個)) | 51.22 |
18. | まつ毛を どうする? (実現,伸ばす,演出,カール,コーティング,コーミング,痛める,太くする,長くする,作る,強調...(他 18 個)) | 51.01 |
19. | 何を 購入? (エレガンスの下地,メイベリンのフルアンドソフト,ナチュラルブラウン,ファイバーウイッグ...(他 14 個)) | 46.78 |
20. | 何が 出る? (艶,力,ミニブラシ,効果,茶色,ボルーム,差,涙,インパクト,ハリ,ツヤ,雰囲気,まつげのボリ...(他 17 個)) | 46.48 |
5.2 アンケートからの格フレームおよび問いの抽出
次に,日経エコロジー Web がアンケートで集めた「主婦の中の声」のうち,「設問1 あなたが水の節約のためにしていることを教えてください」に対して寄せられた 531 件(約 40 KB,約2万字)の自由回答文から格フレームコーパスを構築し,特徴的な格フレームの抽出および問いの抽出を行なった.格フレームは 206 個,表記揺れを吸収すると最終的に 191 個得られ,その格フレーム特徴度の上位 20 を表5,下位 20 を表6に示す.格フレーム特徴度の上位の格フレームには「風呂の 洗濯に 使う」「風呂の 水を 使う」といった水の再利用に関する意見から「こまめに 水道を 止める」「タンクに ペットボトルを 入れる」といった水の節約に関する意見まで幅広く見られる.一方,格フレーム特徴度の下位の格フレームには「水位を下げる」「汚れを ふき取る」を除いて水の節約との関係がはっきりしない格フレームが多い.ここでも,新聞記事や Web ページから構築した格フレームと比較することによってアンケートに特徴的な格フレームが得られていることがわかる.
表 5. アンケートにおける格フレーム特徴度の高い格フレーム
順位 | 格フレーム | u | ft | fw | fn |
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. |
風呂の 洗濯に 使う 湯を 使う 洗濯に 使う 風呂の 水を 使う 洗濯に 使用 水を 使う 風呂の やりに 使用 洗濯に 利用 湯で 洗濯 風呂の 湯で 洗濯 水を せんたくに 利用 洗濯に 水を 使う こまめに 水道を 止める 掃除に 使う 湯を 使用 やりに 使う 風呂の 水を 使用 タンクに ペットボトルを 入れる 風呂の 湯を つかう 花に あげる |
21.00 15.89 15.65 12.00 9.00 7.31 6.09 6.00 6.00 6.00 5.00 5.00 5.00 4.52 4.05 4.00 4.00 4.00 3.00 3.00 |
40 64 52 12 9 38 8 6 6 6 5 5 5 8 13 4 4 4 3 3 |
4 72 14 0 0 840 1 0 0 0 0 0 0 0 14 0 0 0 0 0 |
0 39 11 0 0 904 0 0 0 0 0 0 0 7 8 0 0 0 0 0 |
表 6. アンケートにおける格フレーム特徴度の低い格フレーム
順位 | 格フレーム | u | ft | fw | fn |
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. |
気を 配る 汚れを 落とす 気に かける 人数が 少ない 油を 使う 水に つける 剤を 入れる 機を 購入 水を くみ上げる 蛇口を ひねる 利用を 控える 量を 考える 身体を 洗う 事を 聞く 皿を 洗う 間を 空ける 米を とぐ 水位を 下げる 量を 加減 汚れを ふき取る |
0.13 0.15 0.16 0.18 0.19 0.20 0.20 0.21 0.22 0.22 0.23 0.23 0.23 0.24 0.24 0.24 0.25 0.26 0.27 |
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 |
903 448 347 185 117 206 102 66 15 68 44 59 78 70 51 65 37 18 36 14 |
1268 195 184 49 103 0 53 85 102 27 50 21 0 0 14 0 22 33 10 26 |
また,表7に示す問い特徴度の高い問いに着目すると,水の用途,水の再利用,洗濯時の工夫など水の節約についてのアンケート回答者の視点が整理されていることがわかる.また,5.1節で用いたアットコスメのデータに比べると約40分の1の小規模なデータなので得られる格フレームも少なくなるが,それでも特徴的な格フレームが取り出せていることがわかる.
表 7. アンケートにおける問い特徴度の高い問いとその焦点
順位 | 問いと焦点 | Sum of u |
1. | 何に 使う? (そうじ, 植物のやり, 庭の植物, 植木鉢, 洗濯, 植木, 花のやり, 植木のやり, ふろの洗濯, 植物, ...(他 7 個)) | 59.46 |
2. | 何を 使う? (風呂,桶,洗剤,風呂の湯,米,汁,ふろの水,水,シャワー,風呂の水,機,米の汁,湯,コップ, フ...(他 2 個)) | 38.77 |
3. | 洗濯に どうする? (つかう,使用,回す,利用) | 18.00 |
4. | 何に 使用? (植木の撒き,庭の撒き,掃除,風呂のやり,やり,まき,撒き) | 13.09 |
5. | 水を どうする? (くみ上げる,つかう,替える,とめる,変える,止める,出す,もらう,使用,流す,利用) | 11.25 |
6. | 湯を どうする? (張る,使いきる,はる,つかう,使用,少ない,利用,活用) | 10.91 |
7. | 何を 使用? (シャワー,機,風呂の水,コマ) | 6.77 |
8. | 湯で どうする? (洗う,洗濯) | 6.58 |
9. | 何に あげる? (草木,花,植物) | 6.00 |
10. | 何に 水を使う? (やり,洗濯) | 6.00 |
11. | 何で 洗濯? (風呂の湯) | 6.00 |
12. | 何を 利用? (風呂の残り,残り,風呂の湯,風呂の水) | 5.49 |
13. | 何を 少なくする? (水の量,水の出,容量,出,洗剤の量,量) | 5.48 |
14. | 何に 利用? (洗濯,掃除,せんたく,洗いの時,時) | 5.41 |
15. | こまめに (水道) | 5.00 |
16. | 水を 何に 利用?(せんたく) | 5.00 |
17. | 水を 何に 使う? (掃除,植木鉢,洗濯,植物) | 5.00 |
18. | タンクに 何を 入れる? (おもり,ペットボトル) | 5.00 |
19. | 何を 入れる? (おもり,ボトル,ペットボトル,剤,コマ) | 4.91 |
20. | 水で どうする? (洗う,やる,すすぐ,洗濯,すます) | 4.51 |
5.3 考察
5.1節,5.2節での分析から,特徴度の高い格フレームには対象データに特徴的な意見が多く含まれており,また格フレームから得られた問いからはユーザの非明示的な要望や問題意識が浮かび上がってくることがわかった.ここでさらに問いと焦点の関係を分析すると,問いが対象焦点型,行為焦点型,評価型,言い換え型の 4 タイプに分類できることがわかった.
タイプ1:対象焦点型 問いの焦点に商品名や用途など具体的な対象が列挙される問いが対象焦点型である.例えば,表4中の「何を 使う?」という問いの焦点には「MFのウォータープルーフ」「ランコムのエターニシル」といったマスカラの商品名が挙げられ,表7中の「何に 使う?」の問いの焦点には「掃除」「植物のやり(植物の水やりの解析間違い)」などの水の使い道についてのアイデアが挙げられている.直前格が新情報になる問い(「何を〜?」「何に〜?」「何が〜?」など)がこのタイプになる.
タイプ2:行為焦点型 問いの焦点に行為が列挙される問いが行為焦点型であり,例えば表7中の「水を どうする」の問いの焦点には「くみ上げる」「つかう」「替える」などの用途が挙げられる.用言が新情報からなる問い(「〜がどうなる?」「〜にどうする?」「〜でどうする?」など)にこのタイプが含まれる.
タイプ3:評価型 問いの焦点に評価に関する意見が列挙される問いが評価型である.例えば,表4中の「ブラシが どうなる?」の問いの焦点には「細い」「太い」「ダメだ」「好きだ」といった評価に関する意見が挙げられる.用言が新情報になる問いにこのタイプが含まれる.
タイプ4:言い換え型 電子掲示板やアンケートなどから得られるユーザの生の声を分析する場合,ユーザごとの表記や語彙の揺れが起こる.例えば,表7中の「洗濯に どうする?」の問いの焦点には「つかう」「使用」「回す」「利用」など同じ意味で使われている語が並んでいる.このような言い換えに相当する意見が得られる問いが言い換え型である.用言が新情報になる問いにこのタイプが含まれる.
タイプ1の直前格が新情報になる問いについては,直前格の種類(ガ格,ヲ格,二格など)によって焦点を主体,手段,目的といった下位区分に分類できる.また,用言が新情報になるタイプ2,タイプ3,タイプの問いは,用言の種類(動詞,形容詞,名詞+判定詞)と類似度を見ることによって自動分類が可能である.つまり,焦点に形容詞がくる場合はタイプ3の評価型,焦点に動詞がくる場合は,列挙される動詞の意味的類似度が高いときにはタイプ4の言い換え型,そうでないときはタイプ2の行為焦点型であると判断できる.動詞の意味的類似度は分類語彙表などのシソーラスを用いて求めることができる[河原 02].したがって,提案手法は\ref{sec:intro}で紹介した先行研究よりも広い枠組みから潜在的なニーズの発掘を試みていることが分かるだろう.
これら4タイプの具体的な応用として例えばマーケティングの分野を対象とすると,対象焦点型は競合商品の理解,行為焦点型は行動パターンの理解,評価型は価値判断の多様性の理解,言い換え型は語彙の多様性の理解につながる知見が得られると考えられる.あらかじめ対象が絞れていれば,品詞や特定の語ごとに頻度に重み付けを与えることによって,目的に応じたタイプの問いを選択的に取得することも可能である.このように,ユーザの生の声を問いと焦点という視点から分類することによって,ユーザの多様な視点や価値観を把握することが容易になる.様々な観点からメッセージの背後に潜む問いを意識することが新しい発想の着眼点となり,新商品開発や販売戦略立案の糸口となるであろう.
また,特徴度の高い格フレームを眺めると,新聞記事や Web ページにはほとんど出現せず対象データにだけ出現する格フレームと,新聞記事や Web ページにも出現するがそれ以上に対象データに出現する格フレームの性質の異なる 2 種類が得られていることがわかる.例えば,「瞼に 付く」や「洗濯に 使用」などはDwwwやDnewsには全く現れない格フレームであるのに対し,「ボリュームが 出る」や「湯を 使う」などはDwwwやDnewsにも現れる格フレームである.前者は新規性の高い意見,後者は強い意見を表していると考えられるが,両者を区別した問いの抽出と評価は今後の課題である.
6. 重要文抽出法との比較
提案手法が対象としている問いの精度を客観的に評価することは難しい.そこで本章では,キーワード抽出法を利用して取り出した重要文と提案手法により得られる特徴的な格フレーム(表2と表5に示した格フレーム)を比較し,提案手法の有用性について考察する.重要文の抽出はTFIDF 法[Salton 83]により語に重みを付与し,その重みの和の大きい文を取り出すことにより行う.文書dにおける語wの TFIDF による重みw(d, w)は以下の式(2)より求められる.
w(d, w) = tf(d, w) / (log N/df(w) + 1)・・・(2)
ここでtf(d, w)は文書dにおける語wの出現頻度,df(w)は語wを含む文書数,Nは文書総数であり,w(d, w)は少数の文書に偏って用いられる語の重みを高く算出する.式(1)のu(c)も特定の対象に偏って用いられる格フレームの特徴度を高く算出しており,TFIDF 法と同様のアイデアに基づいている.
ここで,DnewsとDwwwに含まれる語の出現頻度を近似的に文書総数だと見なし,「ファイバーウィッグへのクチコミ投稿」に投稿された 4161 投稿,および「設問1 あなたが水の節約のためにしていることを教えてください」に寄せられた 531 件の自由回答文をそれぞれ1文書にまとめてdcosmeとdsurveyにすると,それぞれの文書の語の重みはTFIDF法と同様のアイデアで求めることができる.出現頻度の近似値に基づいた語wの重みw'(d, w) は以下の式(3)で表される.
w'(d, w) = tf(d, w) / (log N / (df'w(w) + df'n(w)) + 1)・・・(3)
ここで,tf(d, w)を文書dにおける語wの出現頻度,df'n(w)をDnewsから推定した語wを含む文書数,df'w(w)をDwwwから推定した語wを含む文書数である.表8にw'(dcosme, w)の上位 20 語,表9にw'(dsurvey, w)の上位 20 語を示す.なお,語の重みは名詞,形容詞,カタカナ語,サ変名詞に対してのみ算出し,それ以外の語の重みは 0 とする.
表 8. アットコスメにおける語の重みの上位 20 語
順位 | 語 | w' | tf | dfw | dfn |
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. |
にくい じみだ ない 長い ロング やすい カラ 効果 カール 自然だ マス ボリューム まつげ 綺麗だ 確かに 太い きれいだ ブラシ づらい 楽だ |
527.06 346.04 144.82 123.77 92.14 89.01 81.99 73.29 66.02 58.01 54.39 53.88 51.48 51.01 49.01 42.00 35.00 34.26 29.00 29.00 |
527 346 1147 268 493 89 397 1018 332 58 397 419 286 51 49 42 35 251 29 29 |
0 0 1375 3 104 0 62 539107 75 0 738 1191 128 0 0 0 0 758 0 0 |
0 0 212 1 10 0 22 38174 2 0 69 54 2 0 1 0 0 109 0 0 |
表 9. アンケートにおける語の重みの上位 20 語
順位 | 語 | w' | tf | dfw | dfn |
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. |
洗濯 ない 風呂 水 湯 食器 歯磨き シャワー めだ 使用 トイレ 節水 掃除 利用 水道 米 物 植木 洗面 洗顔 |
35.50 33.33 32.41 31.09 20.24 11.77 8.84 8.29 8.00 7.09 6.96 6.24 5.44 4.99 4.56 4.49 4.27 4.21 4.16 4.07 |
259 265 330 361 205 99 48 75 8 77 67 29 46 58 34 43 50 24 13 19 |
736 1375 13216 55190 12494 2245 113 4254 0 26048 7612 51 2361 55525 859 7172 60611 149 10 52 |
111 212 199 14236 1093 248 20 208 0 5300 1286 289 215 17698 380 8337 10164 40 0 0 |
このようにして付与された語の重みの1文ごとの和(文重要度)が大きいほどその文が重要文であると見なされる.アットコスメにおける文重要度の上位 10 文を表10,アンケートにおける文重要度の上位 10 文を表11に示す.重要文抽出では一文がそのまま抜き出されるので文脈の理解が容易であるが,取り出される重要文は全体の一部なのでユーザの意見の分布を知ることは難しい.一方,格フレームは複数の文に共通するものほど格フレーム特徴度が高くなるので一種の自動要約になっており,ユーザの意見の分布を大きく捉えることができる.また,格フレームを問いへ変換してしまえばユーザ全体の意見を整理して概観することができる.重要文抽出においても自動要約[奥村 05]の技術を用いれば全体のユーザ全体の意見を要約することはできるが,5.3節で述べたように問いへの変換は対象焦点型,行為焦点型,評価型,言い換え型からの視点が得られ,これらは従来の自動要約の範囲外である.以上の考察より,ユーザの意見を大局的に整理できるという点で提案手法は重要文抽出および自動要約よりも優れていると言うことができよう.
表 10. アットコスメにおける文重要度の上位 10 文
順位 | 文 | Sum of w' |
1. | 確かに落ちにくいしダマにならなくていいんだけどブラシが大きくてなんだか塗りにくい | 1329.00 |
2. | マスカラは,にじみにくい,落ちにくいに限ります | 1190.49 |
3. | それとブラシが大きいので,皆さん使いにくいといたので多少けれど私の場合そんな言う程使いにくくは無かったです | 1145.26 |
4. | にじみにくいのはいいのですが,ブラシが大きくて塗りにくいです | 1135.18 |
5. | にじみにくい(コンタクトをつけているので目薬をしばしばさすのですが,下瞼に転写しにくくなります) | 1069.62 |
6. | でも,乾いてから綿棒で落とせば,すぐ落ちるし,使いにくさも,落ちにくさでカバーして | 1058.80 |
7. | 手持ちの落ちやすいマスカラがこのマスカラのおかげで落ちにくいマスカラに変化したのでその点では良かったかも | 1055.99 |
8. | 円だし,にしては重ねづけしてもダマになりにくいしにじみにくいので,まぁまぁかなぁという印象です | 1055.20 |
9. | ボリューム・にじみにくさはが,全くカールをキープしてくれないので,私はヘレナの上にマスカラコートとして使ってます | 960.58 |
10. | ブラシが大きすぎて塗りにくいし,「塗るつけまつげ」っていう程ロング&ボリュームが出てるようには感じなかったです | 928.25 |
表 10. アンケートにおける文重要度の上位 10 文
順位 | 文 | Sum of w' |
1. | 湯船には給湯器で湯を張り,湯は浴槽の半分以下で止める風呂の残り水を洗濯に使用シャワーヘッドを節水用に変えた溜め洗い,溜めすすぎを心がけるトイレのタンクに節水コマを取り付け,必要以上に流さない荒いものをすすぐときもできるだけ少ない水が流れるように調節する | 246.70 |
2. | 洗濯を風呂の残り湯で行う歯磨きの時など水を出しっぱなしにしない食器洗いの時,不要な水を出さないようにする | 237.60 |
3. | 洗濯にお風呂の残り湯を使う,洗い物の時水を流しっぱなしにしない,トイレの水を少なく流す | 194.89 |
4. | 風呂水をトイレや洗濯,庭のみずやりに使ったり,お風呂に入る時には,水をいれたペットボトルをいれて,水量を増やしたりしています | 173.62 |
5. | お茶碗を洗う時に水の量を少なくお風呂の水で洗濯植物にあげる水はお米のとぎ汁などで | 172.09 |
6. | 蛇口はしっかり閉める風呂の残り水は選択やそうじ,植木の水遣りなどに使う水を勢いよく出さない | 169.48 |
7. | 洗濯に使わなかった風呂の残り湯をトイレの水を流すのに使う | 159.53 |
8. | 風呂水を洗濯に使用し,食器洗い時や歯磨き時等こまめに水を止める | 158.89 |
9. | 食器を洗うとき水を出したままにしない,食器の洗剤を流すときは洗い桶に水が落ちるようにして流し,その水でシンクの下洗いする | 154.55 |
10. | 洗濯に風呂の残り湯を使う・水を出しっぱなしにしない,こまめに止める | 152.57 |
7. 残された課題
今回用いたコーパスは新聞記事と Web ページから作成したものであり,アットコスメ や環境問題対策とは分野が異なる.これはすなわち,新聞や Web ページは読むが化粧品や環境問題対策にはあまり詳しくない人にとって特徴的な格フレームが得られていることになり,普段から化粧品や環境問題対策に関心のある専門家から見れば重要な格フレームを取りこぼし面白くない格フレームを抽出している可能性がある.適切な格フレームを得るために対象に応じたコーパスを用意する必要がある.
また,格フレームは1つの用言と格要素の組み合わせしか表せないので,元の文が重文や複文の場合は意味を捉えきれない場合がある.また,含意表現に潜む意味をくみ取ることも難しい.例えば「マスカラが目に落ちる」という文は,「マスカラが目に落ちる(から嫌だ)」という意味かもしれないし,「マスカラが目に落ちる(のは気にならない)」という意味かもしれない.また,格フレームでは否定文と肯定文の区別がないので,「まぶたにつく」と「まぶたにつかない」が同じ格フレームになる.
問いを作成する際には出現頻度を利用して新情報と旧情報を判断しているが,これは大局的な視点から見たときの大胆な仮定であり,全ての語が新情報になる可能性をもっている.新情報の選び方によって幾通りもの問いを作成することができるが,そのようにして得られる問いの評価については本論文では論じていない.
さらに,新情報が人名や地名や時相名詞のときは「誰」や「どこ」に変換したほうが自然な問いが得られるが,現在は考慮していない.JUMANの出力として得られる品詞細分類情報を利用すれば対処可能である.
表記揺れへの対策として3.3節で簡単な処理を行っているが,本質的な解決策ではないので,「まぶたにつく」と「まぶたにくっつく」のような同じ意味だが読みが違う文の判断ができない.本研究で用いている JUMAN の最新版(ver.5.0以降)では同じ語の表記バリエーションを扱うために「代表表記」を出力できるようになっており,今後はこちらを利用する予定である.
以上が現状で明らかになっている問題点であり,今後の課題として検討していく予定である.
8. まとめ
本論文では,メッセージの中に込められたユーザの要望や問題意識を抽出するための方法として,特徴的な格フレームの抽出法およびメッセージの背後に潜む「問い」とその「焦点」の抽出法を提案した.このような問いに注目したテキストマイニングは全く新しい試みであるが,本論文で基礎的な検討はできたと考えている.最近ではウェブログから人々の評判を検索するサービス(例えば blogWatcherやテクノラティなど)や検索キーワードのランキングサービスが次々と登場し,インターネット上のデータを利用して社会の動向を探ることが本格的に行なわれるようになってきたが,提案手法はさらに踏み込んで世の中の潜在的なニーズの発掘に応用できる可能性を秘めている.今後は,実際にマーケティングや商品開発の現場で使ってもらいながら,提案手法の評価と改良を進めていく予定である.
参考文献
[Associé 03] Associé, 日経BP出版センター, 第3号, pp. 92, 2003.
[福地 85] 福地肇:談話の構造,大修館書店,1985.
[IT Pro 03] IT Proウェブページ,モノを買うにはワケがある,2003.
[河原 02] 河原大輔,黒橋禎夫:用言と直前の格要素の組を単位とする格フレームの自動構築,自然言語処理, Vol.9, No.1, pp. 3--19, 2002.
[河原 05] 河原大輔,黒橋禎夫:格フレーム辞書の漸次的自動構築,自然言語処理, Vol.12, No.2, pp. 109--131, 2005.
[コトラー 04] フィリップ・コトラー (著), フェルナンド・トリアス・デ・ベス (著), 恩藏 直人 (翻訳), 大川 修二 (翻訳):コトラーのマーケティング思考法,東洋経済新報社, 2004.
[黒橋 99] 黒橋禎夫,長尾真:日本語形態素解析システムJUMAN version 3.62, 1999.
[Kushal 03] Kushal Dave, Steve Lawrence, and David M. Pennock: Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews, The Twelfth International World Wide Web Conference (WWW2003), 2003.
[Morinaga 02] S. Morinaga, K. Yamanishi, K.Tateishi, and T.Fukushima: Mining Product Reputations on the Web, Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD2002), ACM Press, 2002.
[村野 03] 村野誠治,佐藤理史:文型パターンを用いた主観的評価文の自動抽出,言語処理学会 第9回年次大会, pp.67--70, 2003.
[中村 02] 中村洋:「XはYだ。」と「XがYだ。」の意味の違いについて,人工知能基礎論研究会 SIG-FAI-A103-10, pp. 55-60, 2002.
[那須川 01] 那須川哲哉:コールセンターにおけるテキストマイニング,人工知能学会誌 Vol. 16, No. 2, pp. 219--225, 2001.
[奥村 05] 奥村学,難波英嗣:テキスト自動要約,オーム社, 2005.
[大塚 04] 大塚裕子,内山将夫,井佐原均:自由回答アンケートにおける要求意図判断基準,自然言語処理 Vol. 11, No. 2, pp. 21-66, 2004.
[Salton 83] G. Salton and M.J. McGill: Introduction to modern information retrieval, NY, McGraw-Hill, 1983.
[立石 01] 立石健二,石黒義英,福島俊一:インターネットからの評判情報検索,情報処理学会研究報告 NL-144-11, pp. 75--82, 2001.
[Yu 03] Hong Yu and Vasileios Hatzivassiloglou: Towards Answering Opinion Questions: Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences, Empirical Methods in Natural Language Processing (EMNLP-2003), pp. 129--136, 2003.
[ヴォーン 99] S. ヴォーン (著), J. シナグブ (著), J.S. シューム (著), 井下 理 (翻訳), 柴原 宜幸 (翻訳), 田部井 潤 (翻訳):グループ・インタビューの技法,慶応義塾大学出版会, 1999.