IOB2フォーマットによるトークンへのタグ付与
IOB2フォーマットは、トークンがチャンクに含まれるか否かの状態を示すため
のタグ付与方法を定義している。
トークン : 文の中の単語・構成要素
# POS区切りされた断片とか
チャンク : 見た目のまとまり、または、意味的なまとまり
# POS区切りされた断片を集めた固有名詞とか
・IOB2フォーマット
| タグ | 用途 |
| I | チャンク中の先頭以外のトークンに付与 |
| O | チャンクに含まれないトークンに付与 |
| B | チャンク中の先頭トークンに付与 |
すべてのトークンが何らかのチャンクに含まれるようなタスクの場合には、
Oタグを付与されるものが無いことになる。
Heが名詞句(noun phrase)としての意味を持つ、
1トークンからなるチャンクの場合には「B-NP」という
IOB2タグが付与される。
工藤拓さんのCRF++のページに、
IOB2フォーマットによってタグ付けしたデータの例がある。
example of such a file: (data for CoNLL shared task)
He PRP B-NP
reckons VBZ B-VP
the DT B-NP
current JJ I-NP
account NN I-NP
deficit NN I-NP
will MD B-VP
narrow VB I-VP
to TO B-PP
only RB B-NP
# # I-NP
1.8 CD I-NP
billion CD I-NP
in IN B-PP
September NNP B-NP
. . O
He PRP B-NP
reckons VBZ B-VP
the DT B-NP
current JJ I-NP
account NN I-NP
deficit NN I-NP
will MD B-VP
narrow VB I-VP
to TO B-PP
only RB B-NP
# # I-NP
1.8 CD I-NP
billion CD I-NP
in IN B-PP
September NNP B-NP
. . O
ちなみに、1列目:表層、2列目:POSタグ、3列目:IOB2フォーマットタグ
となっている。文末のピリオドに対応するトークンには、
他のチャンクと同じような、語としての意味がない。
そのためチャンク外としてOが付与されている。
トークンからどのようなチャンクを取り出したいかによって、
IOB2タグの付与方法は変わる。タスク依存。
たとえば、トークンから固有名詞を取り出したいときには、
固有名詞に対応するトークンだけB or Iタグが付与できて、
その他のすべてのトークンにはOタグを付与できるかもしれない。
ちなみに、上記のようなタグ付け済みデータを用意すれば、
CRF++やYamChaを学習させることができるので、
トークンからの目的とするチャンクの抽出ができるようになる。はず。
▼関連記事
- [O] PN単語辞書 - 単語感情極性対応表
投稿者:としのり 日時:23:59:59 | コメント | トラックバック() |
