2012年9月9日日曜日

GroongaのトークンナイザーはBigramにしろ

インターネットの文献を見るに Mecab にすると嬉しいみたいな記述をよく見かけるが、EPGのインデックスはBigramにしろ。

Mecabにするととたんにヒットしなくなる。

$ echo ゆるゆり♪♪ | mecab
ゆる    動詞,自立,*,*,五段・ラ行,基本形,ゆる,ユル,ユル
ゆり    名詞,一般,*,*,*,*,ゆり,ユリ,ユリ
♪♪      名詞,サ変接続,*,*,*,*,*
EOS

まぁなんかこれで "ゆるゆり" ではヒットしなくなったりしますね。

というわけでこんな感じにします。

Groonga::Schema.create_table("Terms", :type => :patricia_trie, :key_normalize => true, :defau
lt_tokenizer => "TokenBigram") do |table|
  table.index("Programs.title")
  table.index("Programs.description")
end

僕は詳しくないので詳しくは検索の大先生に教えを乞うたらええ。

0 件のコメント:

コメントを投稿