インターネットの文献を見るに Mecab にすると嬉しいみたいな記述をよく見かけるが、EPGのインデックスはBigramにしろ。
Mecabにするととたんにヒットしなくなる。
$ echo ゆるゆり♪♪ | mecab ゆる 動詞,自立,*,*,五段・ラ行,基本形,ゆる,ユル,ユル ゆり 名詞,一般,*,*,*,*,ゆり,ユリ,ユリ ♪♪ 名詞,サ変接続,*,*,*,*,* EOS
まぁなんかこれで "ゆるゆり" ではヒットしなくなったりしますね。
というわけでこんな感じにします。
Groonga::Schema.create_table("Terms", :type => :patricia_trie, :key_normalize => true, :defau lt_tokenizer => "TokenBigram") do |table| table.index("Programs.title") table.index("Programs.description") end
僕は詳しくないので詳しくは検索の大先生に教えを乞うたらええ。
0 件のコメント:
コメントを投稿