読書 検索エンジン自作入門

タイトルに反してなかなか中身のある本だった
使うアルゴリズム転置インデックスN-Gramというまぁ妥当な構成
インデックスの圧縮とか扱っているが、符号化を圧縮というのはちょっと違和感あるけど、符号化なんてもの自体扱っているのは珍しい
7章で中身の無い文章がごにゃごにゃ書いてあるくらいで、それ以外は結構いい


N-Gramが基本っぽくて形態素解析は言葉の紹介だけでスルー
GoogleとかYahooの〜とか帯に書いているけど、基本クローラやフィルタについては取り扱ってない
こんなんいるんですよーって言葉だけ、まぁしゃあない
じゃあ、検索用の元文書どないすんねん思ったらWikipediaの記事データを使うんだとさ
へーこんなんあるのね
http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2


ところで、Golomb符号というのを始めて知った
名前だけ読んでてっきりゴロム定規関連のなんかだと思って読み飛ばして実装部分みてたら全然違った
まぁよく考えたらゴロム定規で符号化できるわきゃない、アホや