2007-04-20 Fri
IOB2フォーマットによるトークンへのタグ付与
IOB2フォーマットは、トークンがチャンクに含まれるか否かの状態を示すため
のタグ付与方法を定義している。
トークン : 文の中の単語・構成要素
# POS区切りされた断片とか
チャンク : 見た目のまとまり、または、意味的なまとまり
# POS区切りされた断片を集めた固有名詞とか
・IOB2フォーマット
| タグ | 用途 |
| I | チャンク中の先頭以外のトークンに付与 |
| O | チャンクに含まれないトークンに付与 |
| B | チャンク中の先頭トークンに付与 |
すべてのトークンが何らかのチャンクに含まれるようなタスクの場合には、
Oタグを付与されるものが無いことになる。
Heが名詞句(noun phrase)としての意味を持つ、
1トークンからなるチャンクの場合には「B-NP」という
IOB2タグが付与される。
工藤拓さんのCRF++のページに、
IOB2フォーマットによってタグ付けしたデータの例がある。
He PRP B-NP
reckons VBZ B-VP
the DT B-NP
current JJ I-NP
account NN I-NP
deficit NN I-NP
will MD B-VP
narrow VB I-VP
to TO B-PP
only RB B-NP
# # I-NP
1.8 CD I-NP
billion CD I-NP
in IN B-PP
September NNP B-NP
. . O
ちなみに、1列目:表層、2列目:POSタグ、3列目:IOB2フォーマットタグ
となっている。文末のピリオドに対応するトークンには、
他のチャンクと同じような、語としての意味がない。
そのためチャンク外としてOが付与されている。
トークンからどのようなチャンクを取り出したいかによって、
IOB2タグの付与方法は変わる。タスク依存。
たとえば、トークンから固有名詞を取り出したいときには、
固有名詞に対応するトークンだけB or Iタグが付与できて、
その他のすべてのトークンにはOタグを付与できるかもしれない。
ちなみに、上記のようなタグ付け済みデータを用意すれば、
CRF++やYamChaを学習させることができるので、
トークンからの目的とするチャンクの抽出ができるようになる。はず。
▼関連記事
- [O] PN単語辞書 - 単語感情極性対応表
「未踏ソフトウェア創造事業」採択プロジェクト決定
IPA、2007年前半の「未踏ソフトウェア創造事業」採択プロジェクトを決定
「未踏ソフトウェア創造事業」採択プロジェクトを決定したと発表した。
審査の結果、最終的に全体で34件のプロジェクトが決定した。
- 楊征路(Yang Zhenglu)氏=Search People on the Web with Privacy Preserving
- 榊原寛氏=PREMIS:Privacy Respected Multi-user Smart Object Service Environment
- 尾曽越雅文氏=Real-World Extension and Construction of Architecture of Participation for the Service Cooperation Platform PatchService
- 平野学氏=機器指向の認証トークンを用いた従来型家電のネット化装置の開発
- 田中充氏=携帯電話とPCを相互に接続・制御するミドルウェアとその応用ツールの開発
- 斉藤匡人氏=ユビキタスネットワークブラウザの開発と展開
- 天野兼太氏=日本版シリアスゲーム「きみフットサル知ってる?」の開発
- 計盛英一郎氏=日米金融市場のデータベースの整備とその教育への応用
- 奥野陽氏=SocialIME:サーバサイド日本語入力とログ活用サービス
- 西本圭佑氏=3Dコンテンツ管理システムの開発
- 美崎薫氏=PilePaperFile
- 伊藤惇氏=写真をベースとした音声会話の記録と実世界ブログの開発
- 高橋徹氏=The Museum Lifeミュージアム向けウェブアプリケーションパッケージ
- 比嘉了氏=音響プログラミング/パフォーマンスのための空間的UIの開発
- 小林茂氏=プロトタイピングのためのツールキット「Funnel」の開発
- 角薫氏=コンテンツ創造支援のためのシアターシステムの開発
- 池上高志氏=第三項音楽展開のためのソフトウェア群の開発
- 杵渕雄樹氏=TUMBLER:組み込み向け高信頼プラットフォームの開発
- 蟻川浩氏=大規模社会シミュレーションを支援するツールキットの開発
- 中村直人氏=対話型3次元ウェブコンテンツの制作・実行環境の開発
- 石野明氏=ホワイトボード画像の保存・再生システムの開発
- 久保裕也氏=Shared Questionnaire System 2.0の開発
- 赤澤由章氏=学習を用いた3次元CG作品自動生成システムの開発
- 福井登志也氏=ポッドキャスティング用学習映像コンテンツの自動作成システム
- 大倉務氏=ブログを用いた「なんでも早期発見システム」の開発
- 田島敬史氏=モバイル機器の小画面上での表データ閲覧のためのブラウザ
- 近藤真之氏=問い合わせ学習を用いた自動操作ソフトウェア「子猫の手」の開発
- 冨田慎一氏=宣言的アプローチによるJavaScriptマッシュアップエンジンの開発
- 佐々英浩氏=動的仮想世界でのコミュニティ形成を軸とするネットゲームの開発
- 後藤義雄氏=オブジェクト管理API及び簡単システム構築UIの開発
- 大橋猛氏=フレームを活用したスクレイピングによるマッシュアップ支援ツール
- 根山亮氏=視聴体験の受動性・能動性を柔軟に構成可能なPtoP映像・音声配信基盤
- 安本匡佑氏=身体で操るバランスボール型インターフェースシステムの開発
- 三並慶佐=Ruby-Flashネットゲーム通信フレームワークの開発
未踏いいですね。中間報告会とか見に行ってみようかな。
ブログクチコミサーチ、リニューアル
kizasi.jpがブログクチコミサーチをリニューアル。
ブログクチコミサーチをリニューアルしました!
1)これまでの話題量変化がひと目でわかる「ワイドグラフ」、指定
期間のクチコミを見る「フォーカスグラフ」、
2) 商用ブログを集計対象から除外する「商用ブログフィルター」を実装
。「消費者の生の声」をより効率的に抽出すべく、ブログ検索におい
て課題とされてきた商用ブログを、その一部ではありますが機械的に判定
して除外する機能を追加しました。
商用ブログとか、ビジネスブログ、クチコミねらいのブログパーツとか、
世の中の流行をフェアに計算するうえで邪魔なものを削除しているのでは。
▼関連記事
- [O] ブログのクチコミ関連記事
ブログのクチコミ関連記事
別々にするの面倒。
kizasiを活用したブログリサーチ事業 - CNET Japan
kizasi.jpで利用している技術を使い、企業の製品やキャンペーンが
どの程度ブログで話題になっているかを分析してレポートする。
具体的には、ブログに書かれたさまざまな記事を同社のブログ解析技術
である「kizasiサーチエンジン」で解析し、キャンペーンの効果や商品の
認知度、ブランドイメージの測定、競合比較などを行う。企業の要望に合
わせてさまざまなレポートが可能という。価格は1レポート40万円から。
きざしカンパニーでは企業向けのブログ解析ツール「ブログクチコミサー
チ」を提供しているが、企業からはレポートを制作して欲しいという要望
が多かったという。今回のサービスはこの声に応えたものだ。"
「ブロガー人材事業会社」、セプテーニHDとアライドが設立 - CNETJapan
ミマーケティングを支援する新会社「バズマーケティング」を設立する。
TouchGraphが綺麗になっていた
TouchGraphがリニューアル?してますね。
COULD:TouchGraph のクラスター描写
うです。また、解析したいデータも独自のものではなく XML や Excel と
いった普及されているデータフォーマットを読み込んで TouchGraph で描
写することが出来るのが魅力です。"
TouchGraphはbW3のバーサスサーチで使っています。
バネグラフは表現方法として面白いので、また使いたいです。
▼関連記事
- [O] 文章と割合から円グラフを生成できる「HeartRails Graph」
PN単語辞書 - 単語感情極性対応表
東工大奥村研の助手の高村さんの単語感情極性対応表。
とてもおもしろいのでオススメ。
高村さんの単語感情極性対応表
限り公開します。 感情極性とは、その語が一般的に良い印象を持つか
(positive) 悪い印象を持つか(negative)を表した二値属性です。 例
えば、「良い」、「美しい」などはpositiveな極性、 「悪い」、「汚い」
などはnegativeな極性を持ちます。
感情極性値は、語彙ネットワークを利用して自動的に計算されたものです。
もともと二値属性ですが、-1から+1の実数値を割り当てました。 -1に近
いほどnegative、+1に近いほどpositiveと考えられます。 リソースとし
て、日本語は「岩波国語辞書(岩波書店)」を、 英語はWordNet-1.7.1を
使わせていただきました。 "
Yahoo!ブックマークがdisられてる
弾さんがYahoo!ブックマークをdisってた。
404 Blog Not Found:Yahoo!ブックマークがイマイチな件
うに欠点までまねしてる!)、他のSBMに対する優位が全く分からない。な
により問題なのは、ブックマーカーどおしの顔が見えない事だ。これのど
こがSocialなのだろうか。
ここ最近、理想のRSSリーダー像は固まってきたけど、
理想のソーシャルブックマークは、まだ像が固まってないってことですかね。
文章と割合から円グラフを生成できる「HeartRails Graph」
円グラフジェネレーターが登場。
章と割合から円グラフを生成できるブログパーツ「HeartRails Graph」
「HeartRails Graph」を4月9日に公開する。利用は無料。
いいかんじ。
【HeartRails Graphの関連リンク】
- HeartRails Graph
米大学乱射事件に見るブログとマスコミの関係
米大学乱射事件関連の記事を公開したブロガーと
マスコミの反応を軸に、ブロガーとマスコミの関係を書いた記事。
米大学乱射事件に見るブログとマスコミの関係 - CNET Japan
ア工科大学で発生した銃乱射事件で犯人に撃たれて負傷したガールフレン
ドの談話を自身のブログに掲載した。すると、同ブログにicantread01と
の接触を希望するジャーナリストらの書き込みが殺到した。
ブロガーやその他の人々が
自分の経験を自ら管理するサイトやFlickr、Digg、YouTubeといった他の
サイトに掲載することにより、その投稿された記事や映像がニュースの主
要な情報源となるだけでなく、ジャーナリストらが、情報を入手し、事件
の内容を把握するための手段としてそれらを利用しているのだ。
Niles氏は、「報道記者がニュース速報の詳細な内容について、誤って
事実と異なる内容を報じるというケースはこれまでも常に存在した」と語
り、一例として、1981年に報道機関数社がRonald Reagan元大統領が銃撃
された後に心臓切開手術を受けたと報じたが、その報道が誤りだったケー
スを挙げた。
「現在の状況の良い点は、従来よりもはるかに早く誤りを訂正できるこ
とだ。現場に居合わせた人々は、これまでよりもはるかに早く正確な情報
を発表できる」(Niles氏)
「より多くの情報源から得た情報を基に報道がなされることは、無条件
に前向きな動きといえる」(Niles氏)"
情報を上流で大量にキャッチするするようにすれば、
自然と固有のブログ記事による間違えは穴埋めされるし、
バイアスの係りまくった情報を見なくてすみます。
Google、「Froogle」を「Google Product Search」に
Googleが「Froogle」を「Google Product Search」にするそうです。
「Froogle」が「Google Product Search」に - CNET Japan
「Google Product Search」という名称に改め、メインの検索サイトにあ
わせてシンプルなインターフェースを取り入れる意向を明らかにした。
Google Product Searchも商品検索に特化したサイトになるが、Product
Searchの検索結果は今後、通常の検索結果ページにも表示されるようにな
るGoogle Newsをはじめとする、Googleのサービス検索結果が現在表示さ
れている場所が利用される。
個人的にFroogleに興味があったので楽しみ。
livedoor、ユーザー認証APIを公開
livedoorがユーザー認証APIを公開したそうです。
ライブドア、ユーザー認証APIを公開- CNET Japan
「livedoor ID」の認証API「livedoor Auth」を公開した。
livedoor IDのユーザー数は2007年4月時点で630万人。ライブドアによ
れば、日本国内で提供されている認証APIサービスでは最大規模となると
いう。なお、同様の認証APIとしては、はてなの「はてな認証API」やシッ
クス・アパートの「TypeKey」、paperboy&co.の「JugemKey」などがある。
開発者はlivedoor Authを使用する際、livedoor ID を通知するモード、
livedoor IDを通知せずアプリケーション毎に固有な「userhash」のみを
通知する2種類のモードを選択できる。
Perlモジュールとサンプルをきっちり揃えるあたりがさすが。
livedoor++。
【livedoor、ユーザー認証APIの関連リンク】
- Anonymous Twitter
- Catalyst-Plugin-Authentication-Credential-Livedoor
- WebService-Livedoor-Auth
逆転裁判4の「判決ジェネレーター」で面白動画
Nintendo DSソフト「逆転裁判4」の公式サイトで、
「判決ジェネレーター」というサービスがローンチされたそうです。
注目されている裁判の判決が出たときに、
垂れ幕を持って走ってくるお兄さんの動画を作れるサービスです。
垂れ幕に表示できる文字列は最大10文字まで。
文字列は自由に変更可能。画像の挿入もできますよ。
作った動画はブログに貼れます。
動画生成サービスは気軽にリリースできないので、うらやましいです。
とても良い感じだと思います。
『逆転裁判4』の「判決ジェネレーター」で面白動画を作りましょ
livedoor Readerが6倍速くなったらしい
livedoor Readerが最近ちょっと軽やかになったと思ったら
未読記事の表示速度が6倍になったそうです。
livedoor Reader 開発日誌:1周年を迎え、ますます速くなりました
livedoor Readerでは現在、サーバーの増強を行っており、3月中旬と比較
した未読記事の表示速度が6倍になりました。
- 3/15日
- 未読記事表示速度(平均): 1.10秒
- 1秒以下に完了したリクエストの割合: 76.6%
4/19日
- 未読記事表示速度(平均): 0.18秒
- 1秒以下に完了したリクエストの割合: 99.4%
1周年おめでとうございました。
