freya

freya の install

単なるメモ。

検索ソフト、、、いろいろあるねぇ。まぁ、普通なら、namazu を試すのが妥当なんでしょうけど、メジャーなものをやっても何なんで、、、
# というか、形態素解析ソフト無しで済まないかなと思ったもんで、、、
# というより、単に楽したいだけ。

というわけで、まず、 freya をとってきた。
以下は、そのインストールのときの作業のメモ

まず、freya 0.92.4 をとってきた。で早速ばらしてドキュメントを見てみた。
そしたら、いろんなのソフトが必要とのこと。中にはインストール済みのものもあったけど、結局以下のものを入れた。
# 要らないのも入ってるかも。

freya-0_92_4_tar.gz(本体)
GNUgcc.2.95.2.SPARC.Solaris.2.6.pkg.tar.gz(楽してバイナリパッケージ)
- 2.8.1は入れてあったけど、いい機会なので。
Digest-MD5-2_12_tar.gz(Perl-lib)
HTML-Tagset-3.03.tar.gz(Perl-lib)
MIME-Base64-2.11(Perl-lib)
URI-1_09_tar.gz(Perl-lib)
libnet-1_0703_tar.gz(Perl-lib)
- これがよぉわからんな、、、どぉやったかログをとっとけばよかった。
HTML-Parser-3.13.tar.gz(Perl-lib)
libwww-Perl-5_48_tar.gz(Perl-lib)

gccとPerlのライブラリは、東京理科大のsunsite からもらってきた。

んで、gccの上記バイナリパッケージをpkgadd でインストールしちゃってから、 Perlのライブラリをぶち込んで、最後にfreyaをコンパイルした。特に問題になったところはなかった。

そういえば、Perl-lib で HTML-Tree ってぇのが、あって、HTML-Parserの前に，そっちでmake しようとして、だめで、、、ということがあったように記憶している。

んで、最後にmorphdic.tar.gz をみっけてきて用意して、、、

以上が出来てしまえば、freya のドキュメントにしたがって辞書を作るだけ。

freya で「困ったな，，，」というか、「う～ん、、、」思ったのは、

といったところ。まぁ、最後については、仕方無いかなと思いつつも、結果の出力の書式に関しては、好みもあるのでチトね。
それから二番目については、どぉやら、namazu なんかもそぉらしいんで、仕方ないとあきらめている。このあたりは、各ソフトを比較しているページがあって、大変参考になった。

最後に、ロボット、いくつか試してみた。試したのは、

の3種類。一番いいなぁと思ったのはwgetで、これが一番早かった。それはそれとして、WWWcp は Perl で書いてあるのでわかりやすくて、助かる。

とりあえず、こんな感じ。

freya の気に入ったところというと、、、

freya でこれができたらと思うこと、、、

で、今の問題。

情報の収集について: これはfreyaとは基本的には関係ない話でぇ、、、ロボット使うのはいいけど、できるだけ無駄なGETはしたくないし、HEADで済む部分は、それで済ませたい、、、; でもwwwサーバーが Last Modified を返してくれない場合は GETせにゃ何もわからんしぃ、、、
ディスクの容量: freyaは、fdifファイルを予め用意してからでないと辞書が作れないのがチト不満というか不便というか、、、

文句言うなら自分で作れって言われそうだけど、、、

# ところで "freya" って「ふれや」って読むの?

miuraj@isc.meiji.ac.jp