<HTML>
<HEAD>
<TITLE>freya</TITLE>
</HEAD>
<BODY BGCOLOR="WHITE">
<H2>freya の install </H2>
<HR>
単なるメモ。
<P>
<A HREF="http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html">
検索ソフト、、、いろいろあるねぇ。
</A>
まぁ、普通なら、<A HREF="http://www.namazu.org/">namazu</A> を試すのが
妥当なんでしょうけど、メジャーなものをやっても何なんで、、、
<BR>
# というか、形態素解析ソフト無しで済まないかなと思ったもんで、、、
<BR>
# というより、単に楽したいだけ。
<HR>
というわけで、まず、<A HREF="http://www.ingrid.org/ja/project/freya/">
freya</A> をとってきた。
<BR>
以下は、そのインストールのときの作業のメモ
<HR>
まず、freya 0.92.4 をとってきた。で早速ばらしてドキュメントを見てみた。
<BR>
そしたら、いろんなのソフトが必要とのこと。
中にはインストール済みのものもあったけど、結局以下のものを入れた。
<BR>
# 要らないのも入ってるかも。
<UL>
<LI>freya-0_92_4_tar.gz(本体)
<LI>GNUgcc.2.95.2.SPARC.Solaris.2.6.pkg.tar.gz(楽してバイナリパッケージ)
	<UL>
	<LI>2.8.1は入れてあったけど、いい機会なので。
	</UL>
<LI>Digest-MD5-2_12_tar.gz(Perl-lib)
<LI>HTML-Tagset-3.03.tar.gz(Perl-lib)
<LI>MIME-Base64-2.11(Perl-lib)
<LI>URI-1_09_tar.gz(Perl-lib)
<LI>libnet-1_0703_tar.gz(Perl-lib)
	<UL>
	<LI>これがよぉわからんな、、、どぉやったかログをとっとけばよかった。
	</UL>
<LI>HTML-Parser-3.13.tar.gz(Perl-lib)
<LI>libwww-Perl-5_48_tar.gz(Perl-lib)
</UL>
gccとPerlのライブラリは、
<A HREF="http://sunsite.sut.ac.jp/">東京理科大のsunsite</A>
からもらってきた。
<P>
んで、gccの上記バイナリパッケージをpkgadd でインストールしちゃってから、
Perlのライブラリをぶち込んで、最後にfreyaをコンパイルした。
特に問題になったところはなかった。
<P>
そういえば、Perl-lib で HTML-Tree ってぇのが、あって、HTML-Parserの前に，
そっちでmake しようとして、だめで、、、ということがあったように記憶している。
<P>
んで、最後にmorphdic.tar.gz をみっけてきて用意して、、、
<P>
以上が出来てしまえば、freya のドキュメントにしたがって辞書を作るだけ。
<P>
freya で「困ったな，，，」というか、「う〜ん、、、」思ったのは、
<UL>
<LI>入れなきゃならないPerlのライブラリが多い
<LI>辞書から特定のファイルの情報を削除することができない
<LI>CGI用のプログラムがC++で書かれてるんで、C++を知らない私にはちと、、、
</UL>
といったところ。まぁ、最後については、仕方無いかなと思いつつも、
結果の出力の書式に関しては、好みもあるのでチトね。
<BR>
それから二番目については、どぉやら、namazu なんかもそぉらしいんで、仕方ないと
あきらめている。このあたりは、<A HREF="http://rodem.ingrid.org:8080/w3conf-bof/compare-engines.html">各ソフトを比較しているページ</A>があって、
大変参考になった。
<P>
最後に、ロボット、いくつか試してみた。試したのは、
<UL>
<LI>wget
<LI>httpdown
<LI>WWWcp
</UL>
の3種類。一番いいなぁと思ったのはwgetで、これが一番早かった。
それはそれとして、WWWcp は Perl で書いてあるのでわかりやすくて、助かる。
<P>
とりあえず、こんな感じ。
<HR>

freya の気に入ったところというと、、、
<UL>
<LI>インストールは割と楽で、
<LI>複数のインデックスが持てて、
<LI>インデックスのマージができて、
<LI>速い
</UL>
freya でこれができたらと思うこと、、、
<UL>
<LI>標準入力からデータが渡せて、
<LI>複数のインデックスを同時に検索できて、(この点は、namazu に軍配があがるけどね、、、)
</UL>

<BR>
で、今の問題。
<DL>
<DT>情報の収集について
<DD>これはfreyaとは基本的には関係ない話でぇ、、、ロボット使うのはいいけど、
できるだけ無駄なGETはしたくないし、HEADで済む部分は、それで済ませたい、、、
<DD>でもwwwサーバーが Last Modified を返してくれない場合は
GETせにゃ何もわからんしぃ、、、
<DT>ディスクの容量
<DD>freyaは、fdifファイルを予め用意してからでないと辞書が
作れないのがチト不満というか不便というか、、、
</DL>
文句言うなら自分で作れって言われそうだけど、、、
<P>
# ところで "freya" って「ふれや」って読むの?
<HR>
<ADDRESS>
miuraj@isc.meiji.ac.jp
</ADDRESS>
</BODY>
</HTML>
