2007-08-04 Sat

PythonによるBlog&News本文領域抽出ツール extbody

PythonによるBlog&News本文領域抽出ツール extbody が公開されました。
はてブの人気ページに対する本文抽出精度が8割だったとか。なるほど。

extbody -- Blog&News本文領域抽出ツール
http://tanashi.s240.xrea.com/extbody/

extbody -- PythonによるBlog&News本文領域抽出ツール

Pythonで、BlogやニュースのWEBページから、本文領域のHTMLを抽出する
ツール extbody -- Blog&News本文領域抽出ツール を作りましたので公開
します。


実際にコードを眺めてみると、アルゴリズムは意外と簡単。
エンコードしたり、HTMLから不要部分を削除したあとで、
所定のタグ領域に含まれるテキストを「.。、? \ ?!!」のような
区切り文字で行分割し、行数が多くなった領域を取得する
仕組みになっているような感じました。

日本語の本文抽出には区切り文字がよく効くということですね。

投稿者:としのり  日時:23:59:59 | パーマリンク | コメント | トラックバック() |