日本語意味解析製品「なずき」、か

[nlp]

日本語意味解析製品「なずき」というアプリケーションに関する
解説が乗っかっていたので、興味を持って記事を読んでみました。

世界初のモバイル向けコンテンツ連動型広告開始 @IT

今回のサービスでは、徳島大学発のベンチャー企業、言語理解研究所と
NTTデータが共同開発した日本語意味解析製品「なずき」を用いたことで、
精度の高いマッチングが可能になった。


でも、記事からは残念ながら「なずき」の魅力があまり分かりませんでした。

なずきは、概念辞書や連想知識、感性情報といった文章の意味についての
高度な分析を行う辞書データベースを持つ言語処理エンジンで、例えば
「私の彼って、最近車買ったんだよぉ? 明日は軽井沢へ連れて行ってく
れるんだぁ」という文章から、旅行、宿泊、自動車に関連した広告を表示
させることができる。


この記事で言及していることは、意味を解析しなくても実現できます。
大人気無いですが、実際に一緒にやってみましょう。

@ITの記事と同じような処理を実際にやってみよう


プログラムするまでもないので、手を動かして遊んでみます。
入出力

入力 : 私の彼って、最近車買ったんだよぉ? 明日は軽井沢へ連れて行ってくれるんだぁ
出力 : 旅行、宿泊、自動車
つかうもの

- Chasen(WindowsのGUI版でOK)
 ChaSen's Wiki - 茶筌の配布
- Yahoo!検索
1、Chasenで名詞を抽出

「私の彼って、最近車買ったんだよぉ? 明日は軽井沢へ連れて行ってく
れるんだぁ」を文分割する必要もないので、そのままChasenで解析。
形態素解析の結果として、基本形と品詞を表示しています。

私 私 名詞-代名詞-一般
の の 助詞-連体化
彼 彼 名詞-代名詞-一般
って って 助詞-格助詞-連語
、 、 記号-読点
最近 最近 名詞-副詞可能
車 車 名詞-接尾-一般
買っ 買う 動詞-自立
た た 助動詞
ん ん 名詞-非自立-一般
だ だ 助動詞
よ よ 助詞-終助詞
ぉ ぉ 未知語
? ? 記号-一般
明日 明日 名詞-副詞可能
は は 助詞-係助詞
軽井沢 軽井沢 名詞-固有名詞-地域-一般
へ へ 助詞-格助詞-一般
連れ 連れる 動詞-自立
て て 助詞-接続助詞
行っ 行く 動詞-非自立
て て 助詞-接続助詞
くれる くれる 動詞-非自立
ん ん 名詞-非自立-一般
だ だ 助動詞
ぁ ぁ 未知語
EOS


ここから名詞だけを抽出します。

私 私 名詞-代名詞-一般
彼 彼 名詞-代名詞-一般
最近 最近 名詞-副詞可能
車 車 名詞-接尾-一般
ん ん 名詞-非自立-一般
ぉ ぉ 未知語
明日 明日 名詞-副詞可能
軽井沢 軽井沢 名詞-固有名詞-地域-一般
ん ん 名詞-非自立-一般
ぁ ぁ 未知語


2、簡単なストップワード処理

この手の処理にストップワード処理は必須です。
結果を確認しながら、より汎用性の高いルールを探して、
ストップワードのフィルタリングに使いましょう。
今回は、以下の3ルールを使います。

- 代名詞はストップワード
- ひらがな、カタカナ、英数字1文字はストップワード
- 名詞-副詞可能はストップワード

その結果は以下の通りです。

車 車 名詞-接尾-一般
軽井沢 軽井沢 名詞-固有名詞-地域-一般


3、関連語検索をする

「車」、「軽井沢」というキーワードが取得できたので、
これらを使ってYahoo!検索の関連語を確認します。
ページ下部に関連語リストが出現しますよ。

Yahoo!検索 - 軽井沢
軽井沢 アウトレット, 軽井沢プリンスホテル, 軽井沢 ホテル, 軽井沢プ
リンス, 軽井沢 ペンション, 軽井沢 観光, 軽井沢 宿泊, 旧軽井沢,
軽井沢 おもちゃ王国, 星のや 軽井沢 で検索


整頓してみると、以下のようになります。

・軽井沢の関連ワード
-アウトレット
-プリンスホテル
-ホテル
-プリンス
-ペンション
-観光
-宿泊
-旧軽井沢
-おもちゃ王国
-星のや

4、最後に関連語から一般的な語を選択する

これらのキーワードのなかで、より一般的なキーワードは、
「観光」と「宿泊」です。
検索エンジンのヒット数を目安にしてもよいですし、
関連ワードをもう一度Chasenにかけてフィルタリングしても良いでしょう。
自動車も「車」というキーワードで同じようにすれば見つかりますよ。




なづきについて知りたくなったので調べてみると、
以下のような記事を見つけました。

「スーパーなずき」の最適化開発・展開について NTTデータ
「スーパーなずき」では、「なずき」のみが持つ特徴的な自然言語理解機
能のうち、以下について最適化および機能強化を行います。
1. 従来の形態素解析や構文解析による単語や文法情報抽出に加えて、意
味情報を抽出できる最先端技術「不連続ノード同時評価型A*アルゴリズム」
による日本語意味解析処理の高速化
2. 「話題分野」「意図予測分野」「感性理解」などの複合的な意味属性
を効率的に理解できる最先端技術「多属性意味照合システム」の精度強化
および高速化
3. 意味共起解析基本辞書(8,000万パターン・220万語)、概念知識辞書
(4,000概念・100万語)、話題分野知識辞書(981分類・70万語)、感性
理解知識辞書(360億パターン)、固有表現知識辞書(23万語)、広告関
連知識辞書(43万語、50億パターン)の規模拡張に加え、広告関連固有表
現辞書(10万語)・CGM関連知識辞書(60億パターン)の新規開発
4. コンテンツ・ユーザー動向・広告クリエイティブ内容を分析・照合し
最適な広告情報を抽出する「志向性マッチングシステム」の最適化


ふむふむ。この辞書は素晴らしそうですね。
自分ではとても作れない巨大な辞書です。
巨大な辞書とNLPツールと検索エンジンの組み合わせが
なずきという製品なのかな。正直ネットでは良くわかりませんでした。

なんというか、意味解析って何かと難しいですね。
意味解析、という言葉がカッコよいだけに色々ありそう。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック() |