freya の install
単なるメモ。
検索ソフト、、、いろいろあるねぇ。
まぁ、普通なら、namazu を試すのが
妥当なんでしょうけど、メジャーなものをやっても何なんで、、、
# というか、形態素解析ソフト無しで済まないかなと思ったもんで、、、
# というより、単に楽したいだけ。
というわけで、まず、
freya をとってきた。
以下は、そのインストールのときの作業のメモ
まず、freya 0.92.4 をとってきた。で早速ばらしてドキュメントを見てみた。
そしたら、いろんなのソフトが必要とのこと。
中にはインストール済みのものもあったけど、結局以下のものを入れた。
# 要らないのも入ってるかも。
- freya-0_92_4_tar.gz(本体)
- GNUgcc.2.95.2.SPARC.Solaris.2.6.pkg.tar.gz(楽してバイナリパッケージ)
- Digest-MD5-2_12_tar.gz(Perl-lib)
- HTML-Tagset-3.03.tar.gz(Perl-lib)
- MIME-Base64-2.11(Perl-lib)
- URI-1_09_tar.gz(Perl-lib)
- libnet-1_0703_tar.gz(Perl-lib)
- これがよぉわからんな、、、どぉやったかログをとっとけばよかった。
- HTML-Parser-3.13.tar.gz(Perl-lib)
- libwww-Perl-5_48_tar.gz(Perl-lib)
gccとPerlのライブラリは、
東京理科大のsunsite
からもらってきた。
んで、gccの上記バイナリパッケージをpkgadd でインストールしちゃってから、
Perlのライブラリをぶち込んで、最後にfreyaをコンパイルした。
特に問題になったところはなかった。
そういえば、Perl-lib で HTML-Tree ってぇのが、あって、HTML-Parserの前に,
そっちでmake しようとして、だめで、、、ということがあったように記憶している。
んで、最後にmorphdic.tar.gz をみっけてきて用意して、、、
以上が出来てしまえば、freya のドキュメントにしたがって辞書を作るだけ。
freya で「困ったな,,,」というか、「う〜ん、、、」思ったのは、
- 入れなきゃならないPerlのライブラリが多い
- 辞書から特定のファイルの情報を削除することができない
- CGI用のプログラムがC++で書かれてるんで、C++を知らない私にはちと、、、
といったところ。まぁ、最後については、仕方無いかなと思いつつも、
結果の出力の書式に関しては、好みもあるのでチトね。
それから二番目については、どぉやら、namazu なんかもそぉらしいんで、仕方ないと
あきらめている。このあたりは、各ソフトを比較しているページがあって、
大変参考になった。
最後に、ロボット、いくつか試してみた。試したのは、
の3種類。一番いいなぁと思ったのはwgetで、これが一番早かった。
それはそれとして、WWWcp は Perl で書いてあるのでわかりやすくて、助かる。
とりあえず、こんな感じ。
freya の気に入ったところというと、、、
- インストールは割と楽で、
- 複数のインデックスが持てて、
- インデックスのマージができて、
- 速い
freya でこれができたらと思うこと、、、
- 標準入力からデータが渡せて、
- 複数のインデックスを同時に検索できて、(この点は、namazu に軍配があがるけどね、、、)
で、今の問題。
- 情報の収集について
- これはfreyaとは基本的には関係ない話でぇ、、、ロボット使うのはいいけど、
できるだけ無駄なGETはしたくないし、HEADで済む部分は、それで済ませたい、、、
- でもwwwサーバーが Last Modified を返してくれない場合は
GETせにゃ何もわからんしぃ、、、
- ディスクの容量
- freyaは、fdifファイルを予め用意してからでないと辞書が
作れないのがチト不満というか不便というか、、、
文句言うなら自分で作れって言われそうだけど、、、
# ところで "freya" って「ふれや」って読むの?
miuraj@isc.meiji.ac.jp