日本語意味解析製品「なずき」、か
日本語意味解析製品「なずき」というアプリケーションに関する
解説が乗っかっていたので、興味を持って記事を読んでみました。
世界初のモバイル向けコンテンツ連動型広告開始 @IT
今回のサービスでは、徳島大学発のベンチャー企業、言語理解研究所と
NTTデータが共同開発した日本語意味解析製品「なずき」を用いたことで、
精度の高いマッチングが可能になった。
NTTデータが共同開発した日本語意味解析製品「なずき」を用いたことで、
精度の高いマッチングが可能になった。
でも、記事からは残念ながら「なずき」の魅力があまり分かりませんでした。
なずきは、概念辞書や連想知識、感性情報といった文章の意味についての
高度な分析を行う辞書データベースを持つ言語処理エンジンで、例えば
「私の彼って、最近車買ったんだよぉ? 明日は軽井沢へ連れて行ってく
れるんだぁ」という文章から、旅行、宿泊、自動車に関連した広告を表示
させることができる。
高度な分析を行う辞書データベースを持つ言語処理エンジンで、例えば
「私の彼って、最近車買ったんだよぉ? 明日は軽井沢へ連れて行ってく
れるんだぁ」という文章から、旅行、宿泊、自動車に関連した広告を表示
させることができる。
この記事で言及していることは、意味を解析しなくても実現できます。
大人気無いですが、実際に一緒にやってみましょう。
@ITの記事と同じような処理を実際にやってみよう
プログラムするまでもないので、手を動かして遊んでみます。
入出力
入力 : 私の彼って、最近車買ったんだよぉ? 明日は軽井沢へ連れて行ってくれるんだぁ
出力 : 旅行、宿泊、自動車
つかうもの
- Chasen(WindowsのGUI版でOK)
ChaSen's Wiki - 茶筌の配布
- Yahoo!検索
1、Chasenで名詞を抽出
「私の彼って、最近車買ったんだよぉ? 明日は軽井沢へ連れて行ってく
れるんだぁ」を文分割する必要もないので、そのままChasenで解析。
形態素解析の結果として、基本形と品詞を表示しています。
私 私 名詞-代名詞-一般
の の 助詞-連体化
彼 彼 名詞-代名詞-一般
って って 助詞-格助詞-連語
、 、 記号-読点
最近 最近 名詞-副詞可能
車 車 名詞-接尾-一般
買っ 買う 動詞-自立
た た 助動詞
ん ん 名詞-非自立-一般
だ だ 助動詞
よ よ 助詞-終助詞
ぉ ぉ 未知語
? ? 記号-一般
明日 明日 名詞-副詞可能
は は 助詞-係助詞
軽井沢 軽井沢 名詞-固有名詞-地域-一般
へ へ 助詞-格助詞-一般
連れ 連れる 動詞-自立
て て 助詞-接続助詞
行っ 行く 動詞-非自立
て て 助詞-接続助詞
くれる くれる 動詞-非自立
ん ん 名詞-非自立-一般
だ だ 助動詞
ぁ ぁ 未知語
EOS
の の 助詞-連体化
彼 彼 名詞-代名詞-一般
って って 助詞-格助詞-連語
、 、 記号-読点
最近 最近 名詞-副詞可能
車 車 名詞-接尾-一般
買っ 買う 動詞-自立
た た 助動詞
ん ん 名詞-非自立-一般
だ だ 助動詞
よ よ 助詞-終助詞
ぉ ぉ 未知語
? ? 記号-一般
明日 明日 名詞-副詞可能
は は 助詞-係助詞
軽井沢 軽井沢 名詞-固有名詞-地域-一般
へ へ 助詞-格助詞-一般
連れ 連れる 動詞-自立
て て 助詞-接続助詞
行っ 行く 動詞-非自立
て て 助詞-接続助詞
くれる くれる 動詞-非自立
ん ん 名詞-非自立-一般
だ だ 助動詞
ぁ ぁ 未知語
EOS
ここから名詞だけを抽出します。
私 私 名詞-代名詞-一般
彼 彼 名詞-代名詞-一般
最近 最近 名詞-副詞可能
車 車 名詞-接尾-一般
ん ん 名詞-非自立-一般
ぉ ぉ 未知語
明日 明日 名詞-副詞可能
軽井沢 軽井沢 名詞-固有名詞-地域-一般
ん ん 名詞-非自立-一般
ぁ ぁ 未知語
彼 彼 名詞-代名詞-一般
最近 最近 名詞-副詞可能
車 車 名詞-接尾-一般
ん ん 名詞-非自立-一般
ぉ ぉ 未知語
明日 明日 名詞-副詞可能
軽井沢 軽井沢 名詞-固有名詞-地域-一般
ん ん 名詞-非自立-一般
ぁ ぁ 未知語
2、簡単なストップワード処理
この手の処理にストップワード処理は必須です。
結果を確認しながら、より汎用性の高いルールを探して、
ストップワードのフィルタリングに使いましょう。
今回は、以下の3ルールを使います。
- 代名詞はストップワード
- ひらがな、カタカナ、英数字1文字はストップワード
- 名詞-副詞可能はストップワード
その結果は以下の通りです。
車 車 名詞-接尾-一般
軽井沢 軽井沢 名詞-固有名詞-地域-一般
軽井沢 軽井沢 名詞-固有名詞-地域-一般
3、関連語検索をする
「車」、「軽井沢」というキーワードが取得できたので、
これらを使ってYahoo!検索の関連語を確認します。
ページ下部に関連語リストが出現しますよ。
Yahoo!検索 - 軽井沢
軽井沢 アウトレット, 軽井沢プリンスホテル, 軽井沢 ホテル, 軽井沢プ
リンス, 軽井沢 ペンション, 軽井沢 観光, 軽井沢 宿泊, 旧軽井沢,
軽井沢 おもちゃ王国, 星のや 軽井沢 で検索
リンス, 軽井沢 ペンション, 軽井沢 観光, 軽井沢 宿泊, 旧軽井沢,
軽井沢 おもちゃ王国, 星のや 軽井沢 で検索
整頓してみると、以下のようになります。
・軽井沢の関連ワード
-アウトレット
-プリンスホテル
-ホテル
-プリンス
-ペンション
-観光
-宿泊
-旧軽井沢
-おもちゃ王国
-星のや
4、最後に関連語から一般的な語を選択する
これらのキーワードのなかで、より一般的なキーワードは、
「観光」と「宿泊」です。
検索エンジンのヒット数を目安にしてもよいですし、
関連ワードをもう一度Chasenにかけてフィルタリングしても良いでしょう。
自動車も「車」というキーワードで同じようにすれば見つかりますよ。
なづきについて知りたくなったので調べてみると、
以下のような記事を見つけました。
「スーパーなずき」の最適化開発・展開について NTTデータ
「スーパーなずき」では、「なずき」のみが持つ特徴的な自然言語理解機
能のうち、以下について最適化および機能強化を行います。
1. 従来の形態素解析や構文解析による単語や文法情報抽出に加えて、意
味情報を抽出できる最先端技術「不連続ノード同時評価型A*アルゴリズム」
による日本語意味解析処理の高速化
2. 「話題分野」「意図予測分野」「感性理解」などの複合的な意味属性
を効率的に理解できる最先端技術「多属性意味照合システム」の精度強化
および高速化
3. 意味共起解析基本辞書(8,000万パターン・220万語)、概念知識辞書
(4,000概念・100万語)、話題分野知識辞書(981分類・70万語)、感性
理解知識辞書(360億パターン)、固有表現知識辞書(23万語)、広告関
連知識辞書(43万語、50億パターン)の規模拡張に加え、広告関連固有表
現辞書(10万語)・CGM関連知識辞書(60億パターン)の新規開発
4. コンテンツ・ユーザー動向・広告クリエイティブ内容を分析・照合し
最適な広告情報を抽出する「志向性マッチングシステム」の最適化
能のうち、以下について最適化および機能強化を行います。
1. 従来の形態素解析や構文解析による単語や文法情報抽出に加えて、意
味情報を抽出できる最先端技術「不連続ノード同時評価型A*アルゴリズム」
による日本語意味解析処理の高速化
2. 「話題分野」「意図予測分野」「感性理解」などの複合的な意味属性
を効率的に理解できる最先端技術「多属性意味照合システム」の精度強化
および高速化
3. 意味共起解析基本辞書(8,000万パターン・220万語)、概念知識辞書
(4,000概念・100万語)、話題分野知識辞書(981分類・70万語)、感性
理解知識辞書(360億パターン)、固有表現知識辞書(23万語)、広告関
連知識辞書(43万語、50億パターン)の規模拡張に加え、広告関連固有表
現辞書(10万語)・CGM関連知識辞書(60億パターン)の新規開発
4. コンテンツ・ユーザー動向・広告クリエイティブ内容を分析・照合し
最適な広告情報を抽出する「志向性マッチングシステム」の最適化
ふむふむ。この辞書は素晴らしそうですね。
自分ではとても作れない巨大な辞書です。
巨大な辞書とNLPツールと検索エンジンの組み合わせが
なずきという製品なのかな。正直ネットでは良くわかりませんでした。
なんというか、意味解析って何かと難しいですね。
意味解析、という言葉がカッコよいだけに色々ありそう。
投稿者:としのり 日時:23:59:59 | コメント | トラックバック() |
