2007-06-17 Sun
totowaの定義文にランキングを導入
totowaの検索結果には定義文のリストが表示されます。
その定義文のリストを重要度でソートして、上位20件以上を足きりするように
仕様を変更しました。
ソートに使っている情報は今のところ頻度情報だけです。
今後はソートの方法も考えて、上質な定義文が足きりされないように
改善します。
ちなみに何故、totowaの定義文リストにランキングを導入したかというと、
totowaを公開以後、調子にのって機能を拡張していたのですが、
いつの間にか人気エントリの内部リンクの数が平均で1ページに
200件以上になっていたのです。
スパムサイトっぽさが濃い気がしたのでリンク数を
平均で半分くらいになるように調整することにしました。
内部リンク数は定義文を絞れば、あたりまえですが減ります。
そこで、めんどうで全然導入しなかったランキングを導入した次第です。
計算量についてですが、他のコードがしょぼい部分を改善したので、
導入後の方が減っています。
2007-06-16 Sat
totowaのWikipedia検索でAPIを使うのをやめた
totowaの検索結果にはWikipedia検索の結果を、
他のAPIを使って取得して表示していました。
最近になって、そのAPIのレスポンスが激遅いことに気がつき、
自分でWikipediaのabstract.xmlをダウンロードしてindexすることにしました。
Wikipedia:データベースダウンロード
たつをさんからabstract.xmlを処理したデータを頂いたので、
一旦、そのデータを使って実装して後日自前に入れ替えることにしました。
ついでにWikipedia関連語tsvも組み込みました。
検索にSUFARYを使いました。
SUFARY
http://nais.to/~yto/tools/sufary/
SUFARYはWikipediaのエントリデータを検索するのにも使えそう。


