IOB2フォーマットによるトークンへのタグ付与

[nlp]

IOB2フォーマットは、トークンがチャンクに含まれるか否かの状態を示すため
のタグ付与方法を定義している。

トークン : 文の中の単語・構成要素
# POS区切りされた断片とか

チャンク : 見た目のまとまり、または、意味的なまとまり
# POS区切りされた断片を集めた固有名詞とか

・IOB2フォーマット

タグ用途
Iチャンク中の先頭以外のトークンに付与
Oチャンクに含まれないトークンに付与
Bチャンク中の先頭トークンに付与

すべてのトークンが何らかのチャンクに含まれるようなタスクの場合には、
Oタグを付与されるものが無いことになる。

Heが名詞句(noun phrase)としての意味を持つ、
1トークンからなるチャンクの場合には「B-NP」という
IOB2タグが付与される。

工藤拓さんのCRF++のページに、
IOB2フォーマットによってタグ付けしたデータの例がある。

example of such a file: (data for CoNLL shared task)

He PRP B-NP
reckons VBZ B-VP
the DT B-NP
current JJ I-NP
account NN I-NP
deficit NN I-NP
will MD B-VP
narrow VB I-VP
to TO B-PP
only RB B-NP
# # I-NP
1.8 CD I-NP
billion CD I-NP
in IN B-PP
September NNP B-NP
. . O


ちなみに、1列目:表層、2列目:POSタグ、3列目:IOB2フォーマットタグ
となっている。文末のピリオドに対応するトークンには、
他のチャンクと同じような、語としての意味がない。
そのためチャンク外としてOが付与されている。

トークンからどのようなチャンクを取り出したいかによって、
IOB2タグの付与方法は変わる。タスク依存。

たとえば、トークンから固有名詞を取り出したいときには、
固有名詞に対応するトークンだけB or Iタグが付与できて、
その他のすべてのトークンにはOタグを付与できるかもしれない。

ちなみに、上記のようなタグ付け済みデータを用意すれば、
CRF++やYamChaを学習させることができるので、
トークンからの目的とするチャンクの抽出ができるようになる。はず。

▼関連記事
- [O] PN単語辞書 - 単語感情極性対応表

投稿者:としのり  日時:23:59:59 | コメント | トラックバック() |