freya の install


単なるメモ。

検索ソフト、、、いろいろあるねぇ。 まぁ、普通なら、namazu を試すのが 妥当なんでしょうけど、メジャーなものをやっても何なんで、、、
# というか、形態素解析ソフト無しで済まないかなと思ったもんで、、、
# というより、単に楽したいだけ。


というわけで、まず、 freya をとってきた。
以下は、そのインストールのときの作業のメモ
まず、freya 0.92.4 をとってきた。で早速ばらしてドキュメントを見てみた。
そしたら、いろんなのソフトが必要とのこと。 中にはインストール済みのものもあったけど、結局以下のものを入れた。
# 要らないのも入ってるかも。 gccとPerlのライブラリは、 東京理科大のsunsite からもらってきた。

んで、gccの上記バイナリパッケージをpkgadd でインストールしちゃってから、 Perlのライブラリをぶち込んで、最後にfreyaをコンパイルした。 特に問題になったところはなかった。

そういえば、Perl-lib で HTML-Tree ってぇのが、あって、HTML-Parserの前に, そっちでmake しようとして、だめで、、、ということがあったように記憶している。

んで、最後にmorphdic.tar.gz をみっけてきて用意して、、、

以上が出来てしまえば、freya のドキュメントにしたがって辞書を作るだけ。

freya で「困ったな,,,」というか、「う〜ん、、、」思ったのは、

といったところ。まぁ、最後については、仕方無いかなと思いつつも、 結果の出力の書式に関しては、好みもあるのでチトね。
それから二番目については、どぉやら、namazu なんかもそぉらしいんで、仕方ないと あきらめている。このあたりは、各ソフトを比較しているページがあって、 大変参考になった。

最後に、ロボット、いくつか試してみた。試したのは、

の3種類。一番いいなぁと思ったのはwgetで、これが一番早かった。 それはそれとして、WWWcp は Perl で書いてあるのでわかりやすくて、助かる。

とりあえず、こんな感じ。


freya の気に入ったところというと、、、 freya でこれができたらと思うこと、、、
で、今の問題。
情報の収集について
これはfreyaとは基本的には関係ない話でぇ、、、ロボット使うのはいいけど、 できるだけ無駄なGETはしたくないし、HEADで済む部分は、それで済ませたい、、、
でもwwwサーバーが Last Modified を返してくれない場合は GETせにゃ何もわからんしぃ、、、
ディスクの容量
freyaは、fdifファイルを予め用意してからでないと辞書が 作れないのがチト不満というか不便というか、、、
文句言うなら自分で作れって言われそうだけど、、、

# ところで "freya" って「ふれや」って読むの?


miuraj@isc.meiji.ac.jp