只今、namazu のテスト中
辞書を作ると、、、
で辞書作ってやってみた。そしたら、
- 複数の辞書を指定する
- どの辞書にも検索文字列は含まれない
とき「せぐめんてぇしょん例外」だと。なんかわかんないんで、ヤマカンで
configure に
つけた。そしたらできた。何がいけない?
それから、mknmz で辞書作るとき、特定のファイルにぶちあたってこける。
メッセージは同じく「せぐめんてぇしょん例外」。
どこが悪いんだかわかんないんで、素人的に mknmz にあちこち、
printいれてみてみたら、Chasen.pm を呼んだ後、こけてるみたい。
わかんねぇよな、これじゃ。
で、動かないことにはどぉしよぉもないので、
kakashi-2.3.4 と Text-kakasi-1.0.5 だっけ、いれた。
そしたら通った。ChaSen.pm の何が悪いのかね、、、Chasen 自体は
そのファイル、通せるのに。
namazu のソースを追いかけたら、、、
でぇ、まず、namazu と namazu.cgi の方からやっつけようとソース見ながら、、、
そしたら、namazu は、
- ヒット数だかスコアだかの再計算(search.c の nmz_recompute_score)の後
こけてることがわかった。どぉも、nmz_recompute_score で使っている
hlist という構造体に変な値が入っているようで。
さらに追いかけると、
- hlist.c の nmz_merge_hlist
の戻り値が怪しいらしく、
- hlist.c の nmz_merge_hlist で宣言している構造体 NmzResult value;
を「初期化」していないことが原因だと決め付けて、宣言直後に
入れて解消した。(勿論、このあとは、 configure のオプションに --enable-shared=no はつけない)
ところが、namazu.cgi の方は、これだけれはないらしく、「せぐめんてーしょん例外」
は出なくなったが、今度は HTML で「エラー」と表示された。
同じくおっかけたら、ERR_FATAL だかが hlist.stat(だったかな)にセット
されちゃったみたいで、、、
同じ nmz_merge_hlist の NmzResult value; と宣言されてるやつの
stat というメンバーに変な値が設定がセットされちゃうことが原因だと
わかった。
# 要するに、この構造体を初期化していないことが原因なんだと。
だから、 namazu のときと同様で構造体を宣言した後に、
を入れて解消した。
というわけで、こんどは、mknmz だ、、、chasen だね。
mknmz で呼んでいる ChaSen.pm がロードする libchasen.so(かな?)
でぇ、
よくわからんけど、ChaSen、データがでかいとこけるみたい。どぉしよう、、、
どぉやら、ChaSen は改行の入っていない、
長いデータを処理するのが苦手らしい。
?、まてよ、、、mknmz はこけるけど、chasen って、コマンドラインからやるときは
OKなんだよな、、、ってぇことはぁ、、、何だ?
あぁ、そっか、mknmz で 前処理やってんだよな、、、
mknmz に手をいれて、データを少しづつ渡すようにすればいいのかな、、、
でも、データの切れ目なんかわかんないしな、、、適当に空白入れる?
ChaSen(.pm) って、一度に渡すデータが、8kb を越えるとだめみたいね、、、
標準入力渡すようにして ChaSen.pm 使ってみたら、
そぉだった。(ソースにも 8192 って数字がポツポツ)
これ、単純に大きくすればいいって問題でもないしね、、、確かにそうすれば、
当座の問題はしのげるけど、本質的には解決してないもんね、、、
と www.namazu.org みてみたら、結構有名な話のようで、
みなさんはまってるみたいね、、、なんだ、私だけじゃないんだ(^ ^;
みんな、kakasi で回避してるのね、、、一緒、一緒。
# ChaSen の FAQ に書いてあった。(^ ^;
「お知らせ」問題 part.1
分かち書きに「ChaSen」を使ったときの話。
どぉも「キーワード」には「お知らせ」という単語があるのに、namazu や
namazu.cgi では「お」「知らせ」とか、ひどいと「お」「知ら」「せ」とかに
なってうまく検索できない。なんでだ、、、、
で、ソースみてみた。そしたら、 nmz_wakati で検索文字列、分割(?)してんな、、、
# なんでや? そうそう、キーワード自体は、辞書ディレクトリの NMZ.w でわかる。
で、「直接、分かち書きする前にnmz_binsearch 呼んだら、、、」ってやったらできた。
# 当たり前だよな。
ついでに ML のアーカイブみてた。そしたら、同じことやってる
(? いや、やってはいないか)人はいてぇ、、、やっぱり、
- namazu は「検索式(にある文字列)を検索前にわかち書きする」
ためで、仕様なんだそうだ。仕方ないか、、
でもさぁ、長い文字列(分かち書きする前)と同じものがキーワードに
あるかどぉかくらいは、やはり見た方がいいように思うのだが、、、
で、それがなければ nmz_wakati を呼び出してってね、、、言うは易し?
# 経緯のページ、リンク辿れない、、、(; ;)
# マニュアルにも「グチャグチャに分かち書きされちゃうときはあきらめろ」って。
どぉしようかね、、、「お知らせ」なんか、結構使うしなぁ、、、
ChaSen を呼び出すときのオプションで「お」「知らせ」にできない
もんかね、、、「おしらせ」なら「お」「しらせ」になるんだけどな、、、
「お知らせ」問題 part.2
じゃ、「kakasiで」ってぇのは思い付くんで、 kakasi でやってみた。
そしたら、
- kakasi の標準辞書には「お知らせ」って言葉はない
から、分かち書きのとき(辞書作るとき)は「お」「知らせ」になる。
ここまではいい。ところがだぁ、、、、分かち書きする前が
ってなってたりすると、「お知らせ」、即ち「お」「知らせ」で検索できない。
「どぉなってんだ?」とやってみたら、kakasi -w での分かち書きのとき、
になってた。頭痛ぇなぁ、、、kakasi の辞書に「からの」っていれる?
と思ったら、mkkanwa は先頭が平仮名の単語は無視(?)するそうだ。むぎゅぅ、、、
というか、そもそも kakasi 自体は「ひらがなの分かち書き」ができないらしい。
フゲ!
# そりゃそぉだ。kakasi 本来の役目じゃないよな。
そしたら ChaSen だな、、、
「ChaSenの8kb」 & 「お知らせ」、どぉする?
本質的な解決方法は、、、ないねぇ、、、
ChaSenをいじれば別だけどね、、、
こぉすりゃいいか、、、暇になったらやってみよう。
mknmz は、ソースいじって、、、
- 予めChaSen と kakasi の両方を用意しておいて、
- 分かち書きには、原則として ChaSen を使う
- ChaSen に渡すデータが 8kb を越えていたら、そのときに限って
強引にkakasi をよびだす。
辞書の違いによっておかしなことになるかもしれないけど仕方ないかな。
で、namazu は、
- ソースいじって、nmz_wakati の前に、強引に nmz_binsearch する。
なんか大変そう。特に mknmz をいじるのが。
やめて、namazu だけいじろう。
とかいいつつ
- kakasi で前処理したデータをそのままChaSen に渡したら
こちらが(現在)意図するような分かち書きできるか?
ってやってみた。そしたら、欲しい結果がでた。ChaSen って凄いねぇ、、、
# 逆の方がいいかな、、、
いつもうまくいくとは限らないだろうけどね。一考の価値あり?
で、とりあえず、nmz/search.c で nmz_wakati を呼ぶ前に、 do_word_search で
強制的に一端検索を行ない、ヒットしなかった場合にのみ、nmz_wakati を
呼ぶようにソースをいじった。mknmz で呼ぶのは chasen 。chasen でこける
文書のみ、あとで kakasi で辞書に追加する、、、とね。
まぁ、kakasi で分かち書きした結果は chasen のそれとは異なっちゃうけど、
これくらいはね。(^ ^;
mknmz のオプションは以下を追加すればいいのかね。
- --no-delete --exclude=.... --outputdir=....
、、、とかいいつつ、ChaSen 8kb の件、データに改行とかあれば
いいみたいね、、、どぉにかできるかな、、、mknmz の前処理を工夫すれば。
おぉ、それより、
- mknmz で kakasi を呼ぶ。その際は「ひらがなのみの単語は出力しない」
- namazu で nmz_wakati のかわりに kakasi を呼ぶ。こちらでも
ひらがなのみの単語は除外するように。
でどぉだろう、、、
「おにぎり」とかを検索式に指定するやつはいないよな、、、
# 将来の可能性のおもしろさを考えると、ChaSen にしたいんだけどね。
# いつになるかわからない将来のこと、考えても仕方ないか、、、
まぁ、いっかな、いまのままでってぇか、
なんもしないで。
よそ様はどぉやってんの?
下関市で namazu を使っているらしいので、さっそく「お知らせ」
を検索してみた。そしたら「お」「知らせ」だった。まぁ、当然というか、、、、
で、結果一覧の中に「***からのお知らせ」ってあった。
さっそく「***からのお知らせ」って入れてみた。
そしたら、「お」「知らせ」でひっかかった文書が「***」「からのお」「知らせ」
でもでてきた、、、
検索は、該当文書が1つなのでおそらく and だよね、、、、
なんで同じ文書がでてくるんだ?
あぁ、そっか、「***からのお知らせ」と「お知らせ」、両方あればいいもんな。
#リンクをたどれないので確かめようがない。
で、こんどはビクターエンターテイメントへ。
そしたら「お知らせ」では該当無し。で「知らせ」にしたら「お知らせ」ってある
文書がでてきた。これはきっと「ひらがらのみの単語は登録しない」んでしょう。
# 関西大学も同じ方法かな、、、
そういや、どこも kakasi みたいだな、、、
「お知らせ」って、、、
ちょっと横道、、、、
ChaSen(ipadic 2.4.4) だと
- 「お知らせ」・・・「名詞-サ変接続」
- 「おしらせ」・・・「お」「しらせ」・・・
「接頭詞-名詞接続」「名詞-一般」
- 「知らせ」・・・「動詞-自立」
ってなる。kakasi -w (2.3.4) だと、
- 「お知らせ」・・・「お」「知らせ」
- 「おしらせ」・・・「おしらせ」
になる。ふと思った。「辞書次第なんだけどぉ、、、juman(3.61 標準辞書) は?」と。
そしたら、
- 「お知らせ」・・・「お」「知らせ」・・・
「名詞接続辞」「普通名詞」
- 「おしらせ」・・・「お」「しらせ」・・・
「名詞接続辞」「動詞」
- 「知らせ」・・・「動詞」
だそうだ。
どうでもいい話というか当たり前の話だが、
ChaSen(ipadic) の「知らせ」のコストを小さくしたら、
- 「お知らせ」・・・「お」「知らせ」・・・
「接頭詞-名詞接続」「名詞-一般」
ってなった。まぁ、ChaSen と juman は前後の文脈(?)によるけどね。
日本語の文法って難しいねぇ、、、
で、結局、、、
あれこれ考えたけどさぁ、結局ChaSenをかなりいじらないとだめだよな、、、
どぉやったところで、万人が満足いく結果がでるようにはならないし、、、
だから
- ソースはいじらない
- namazu の辞書は、kakasi を使う
- 検索方法の注意書きをいいものに
ってした方がいいかね。
# (kakasi)辞書の更新が簡単ってぇのはかなり魅力的というか、大事だもんね。
miuraj@isc.meiji.ac.jp