かってきままな日々
2019-10-10 (Th) [長年日記]
_ 日記の検索を変更した
今まで elasticsearch + sudachi を使ってたんだけど、 どうも最近 sudachi の方が elasticsearch の変化に対応しきれてないのか何なのか、 ビルドが通らない。
仕方ないので、ひとまず sudachi は見限って ngram にすることにした。
で、テストで自分で検索してみたんだけど、確実に精度下がってるなぁ。
min=1, max=2 にしてるので、 "foo" で検索した場合、tokenize すると "f", "fo", "o", "oo", "o" になるのかな。 そうすると、文章の中に "fo" と "oo" が含まれてるだけで引っかかってしまう。
まぁ仕方ないのでしばらくはこれで行こうか… また sudachi が復活してくれることを祈る。