全文検索エンジンNamazu ver2
全文検索エンジンNamazuについてアレコレ
http://www.namazu.org
JAVAでretrievalWordという変数にModern Artsというような文字列をいれて,
下記のような検索プログラムにより,検索エンジンnamazuの
入力として渡しています.
この場合,namazuには,
namazu --max=2000000 "{Modern Arts}" /home/jikken/index_0
という入力が渡される事になります.
なおnamazuは,"{Modern Arts}"という検索がいった場合,
"{}"で囲まれた文字列がフレーズとして検索されるという機能をもっています.
つまりターミナルから
namazu --max=2000000 "{Modern Arts}" /home/jikken/index_0
と入力するとModern Artsの検索としてうまく行くのですが,
java経由で下記のプログラムからnamazuへ検索要求をしても
namazuでは,
"{Modern Arts}"という文字列の検索を行ってしまい,
Modern Artsの検索がうまくいきません.
String proscmd = "namazu --max=2000000 ";
proscmd = proscmd + "\"{" + retrievalWord + "}\" " + indexdir;
System.out.println("proscmds : " + proscmd);
Process process = Runtime.getRuntime().exec(proscmd);
結果
namazu --max=2000000 "{Modern Arts}" /home/jikken/index_0
この原因がどういう点にあるのかを教えて頂けないでしょうか?
もう長いことこれに時間をかけています。でもわかりません。
宜しくお願い致します.
>>53
結果だけ見ると、
proscmd = proscmd + retrievalWord + indexdir;
でいいような希ガス。 メール本文のインデックスを作ってくれるのはありがたいんですけど、
メールに添付されている PDF や、Excel, Word ファイルについても
インデックスを作ることはできませんか? e-mail の milti-part がそのまま保存される、mh形式です。 >>57
multi-part部も
2.0.15ではインデックスに含めるようにできると思われる
ttp://www.namazu.org/pipermail/namazu-devel-ja/2005-July/000487.html
2.0.15pre1が出ているから試してみては? >>59
密かに kakasidict の寺西版があるね。
http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/ gj
でも何が増えたのかわからないし、独自加工もしにくいので
mkkanwaする前のソースデータもうpきぼんぬ。GPLだし。 かなり困った。。。
PHPモジュールでmaxhit超えたやつに Too match hitとか出したいんだが
resultが全部0で帰ってくる・・・
どうしたらいいものだろうか Too many documents hitだな・・・お恥ずかしい 会社でUNIX畑の人に「とりあえずなまずって検索してみて」といわれたので
OHPとかこのスレとか見てみました。
日本語全文検索ってほぼGoogleでカバーできてるのでは?
Winではあまり普及していないらしいし、導入に面倒がありそうだし
これからのNamazuの役割って一体なんです? >>65
McDonald's があれば、モスバーガー、ロッテリアは必要ない、とかそーゆーこと?
フレッシュネスうまうまだよもん。
駅前広場はラブホのかわりにはならないんだよもん。 >>65
UNIX畑の人に聞いてみたら?
ってか色々なサイト見てきたんだったら役割は自ずと見えてくるだろうと思うけど
まぁちょっと設計が古かったりするところはあるとはおもうけど
自分に必要な機能が満たされていればNamazuでも十分だとか
そういうことを判別できれば役割はかなりあると思うよ
まぁ役割は自分が必要と思えばあるし、無ければ無いんだよ >>66
> McDonald's があれば、モスバーガー、ロッテリアは必要ない、とかそーゆーこと?
McDonald'sがあれば、家庭に台所は必要ない、って言ってるんだろ。 というか最初は釣りかと思ったが、>>65がリアル素人な気がしてきた。 >>65です。たくさんレスありがとうございます。
実際自分はWinしか触ったことのないリアル素人で、OHPや主だった関連サイトを
いくつか見てみましたがいまいちピンときませんでしたが
>>69氏の譬えが的を射ているのかな。
つまりGoogleとかはロボットに「検索してもらう」という受動的な検索だけど
なまずは自分で全文を検索に引っ掛けるように設定するという能動的検索
という理解でよろしかろうか。
なんか新しく入った会社で雑務のひとつとして、なまず検索の更新も担当する
ということらしいです。
まだ具体的には本物の鯰なのかcgiの鯰なのかよくわかりませんが、
これからも何かとお世話になるかも知れません。
どうぞよろしくおながいします。 ぇ、>>54 で言ってる Google って GoogleDeskTop のことじゃなかったのか。 > なまず検索の更新も担当
これも謎だよなー
ふつうは更新されたファイルを探し出て、インデックスも更新する
スクリプトを自動的に動かすもんだし。 >>71
> なんか新しく入った会社で雑務のひとつとして、なまず検索の更新も担当する
> ということらしいです。
UNIX畑の人がいるのに素人にこんな雑務をやらせるこの会社って一体… Obsoleted Home Page だよもん
webブラウザを立ち上げたときやホームボタンで表示されるページだよもんが、
メンテされないのでリンク切れ多発でよく使うのにリンクしてないサイト
多数出現だよもん
>>75
> OHPってなんだ?
エロゲー方面の隠語 >>74
UNIX畑の人が抜けるんで、自分が引継ぎということらしいです。
なにしろ社員3人で他SOHOスタッフしかいないんで勘弁してやってください。
>>77
エロゲ用語だったのですか。ふつーに公式サイトの意味で使われているものとばかり(w
>>73
なるほどー。それがふつうなのですね。
昨日全体の業務引き継ぎ内容を大雑把に説明されただけなので
まだ具体的なことはよくわからないのですが、鯰のこともうちょっと
調べてみるです。 がーん
ttp://www.ki.nu/OHP/
このことかと思ってた俺って。。。。 Namazu 2.0.14 for Win32 (Beta) を導入したのですが、
C:\namazu\share\namazu\filter\win32 の中に oleword.pl が見当たりません。
Office 2000ではダメで, 2003が導入されている必要があるのでしょうか?
wvWareのWindows版を導入しようとしたのですが、コマンドがシェルスクリプトに
なっているようです。cygwinがいるのでしょうか?
>>81
俺は cygwin + Namazu-2.0.14.tar.gz を
ソースコンパイルなので環境がだいぶ違うが、
Namazu 本家の namazu-2.0.14.tar.gz を解凍したら
namazu-2.0.14/filter/win32/ 以下に
olemsword.pl があるよ。
後半の方は俺には質問の意味が分からんのでパス。 なるほど! ソースなら入っていそうですね。試してみます。
olemsword.pl と olemsexcle.pl なら入ってるよ。
c:\Namazu\share\namazu\filter\win32 以下 ミス
s/olemsexcle.pl/oleexcel.pl/ Namazuで検索キーワードの該当部分を
検索結果に反映する方法はありますか?
たとえば、デフォだと該当キーワードがHTMLの末のほうにあっても、
検索結果のプレビューではHTMLの上のほうから表示されてキーワードが
出てきませんよね?
それを、キーワードの該当部分の前後文を表示するようにある方法が
あるらしいといわれたので探しているのですが、わかりません。
もしかして指示者が別の検索エンジンと混同してるかも知れないので、
Namazuにそういう機能があるのかどうか だけでも教えていただければ
幸いです。 >>87
大ヒントありがとうございます!!
超感謝であります! >>86
Namazuはインデックスに単語の出現位置を記録していない。 >>89
指示者もうろ覚えだったようなので、Esterierと混同していたのですね。
そのように報告しました。
どうもありがとうございます(´∀`) Webサイト内の商品検索に使用したいと思うのですが
namazuの検索結果に画像を表示させることは可能ですか? >>91
どこかのサイトで検索結果のサムネイル画像をやろうとしてた希ガス。
template の NMZ.result.normal.?? を変更すれば出来るっけか。 >>91
検索結果に見合った画像を出すのはテンプレ変更だけじゃ無理かも。
「可能か」の問いには、オープンソースだからね。出来るさ。 ありがとうございます。私のスキルでは簡単には出来そうもないですね。
調べてみたところkabayakiなら出来そうな感じですね。
Vineなんですが導入できるんだろうか。 >>91 >>94
ML 探したらみつかった。
http://www.stellar.ac/~komai/software/namazu/research/namazu_play/ >>95
ありがとうございます!
他のどの方法でやるのか悩んでいたので助かりました。 Namazuで動的ページに対してインデックスを作ることはできますか?
DBから取得した情報をHTMLで出力するPHPプログラムがあるとして、
そのHTMLを検索対象にしたい場合が結構でてくると思うんですが、
やっぱりHTMLファイルを生成するしかないんですかね?
wget 等で一度プログラムをたたいてその結果をインデックスすれば
いけないこともないと思うんですが…。
そのようなNamazuモジュールや設定があればご教示いただけると助かります。 >>99
Namazuじゃないけど、mod_estraierどうよ。 >>100
そんなモジュールがあったんですね。
参考になります。
ただやっぱりNamazu系のフリーの全文検索ツールじゃないときついですね… つか、mod_estraierもHyper Estraierもフリーだよ。 やっぱりHyper Estraierに誘導するケースが増えてきてるねえ。
まあしょうがないかな。 >>102,103
言葉足らずですんません。
mod_estraier はキャッシュとして動く感じだと思うので
ちょっと想定の動作とは異なる感じがしました。
Namazuを使うのはほぼ決定なんですが、
動的ページの検索がHyper Estraierでしかできないのであれば
その方向でも考えた方がよさそうですね。 >>104
キャッシュをインデックス対象にするのであれば
apacheでproxyを立てて
mknmzで --replace=apachecache::replacecode
としてできるかも インディックスの作成の名人ですがどなたか勝負しましょう。
どこかサイトをいってください。
そしてインディックスの小ささと、単語のヒット率で勝負です。 >>109
全角にしました。
誰も挑戦者はいないようなのでインディックスにしたいサイトが
あったら名人が作ってあげます。
小さすぎても大きすぎても駄目。ファイル数が五千から五万くらいのならいいよ。 ウェブ上のバグ報告システムなら気軽に書けるし
仮にメール欄があっても捨てアドなりなんなりで良いけど
メールで ML にバグ報告は色々と敷居が高いよぅ
…と保守がてら言ってみるテスト。 ファイルの添付も簡単だし、ハードコピーも貼れるし。
(namazu.cgiとかWindows上のエラーダイアログくらいしか出番はないかもしれんが)
Wikiがあるならドキュメントの保守も簡単だし、TracのWiki自体も差分や変更履歴が残るしね。
と言ってみる。 (´-`).。oO(メールじゃないと報告者減る ってのは正直感覚ずれてる気がする) 現在phpから動的にページを生成して出力しているのですが、
このPHPから出来上がるページをnamazuで検索したいと思っています。
どのような手法がありますでしょうか? >>115
一番いいのは、その PHP のページががキャッシュを書き出す方法だけど
Proxy 経由でキャッシュを取るか、無限ループに気をつけて wget するかじゃないかな。 ファイル数が多く時間がかかるので
インデックスの作成を何日かに分けてやりたいんですが
どうすればいいでしょうか?
途中から再開する方法を知りたいです >>117
ファイル一覧を作ってから5000個ずつ処理するのがよいぞ 大量のファイルを処理するにはindexサイズが大きくなりすぎないように
することが大切だぞ。
処理中になんどか更新するがとても時間が掛かってしまう
あとでマージせよ
>>118,119
ありがとうございます。インデックスをいくつかに分けて
作成する事にしました。インデックスのサイズが小さいと
時間の掛かり方も全然違いますね。
全部まとめてやるよりも早く終わりそうです。 動的ページ(DBから情報を取得するもの)を検索対象にするために、
wget + Namazu で実際に運用されている方はおられますか?
DBから取得した情報も全て静的ページに吐き出してからそれをインデックスするのか、
wgetで全部ダウンロードしてそれをインデックスするのかで悩んでいます。
後者の方が圧倒的にメンテナンスも構築も容易なのですが
実運用で使うに耐えられるものなのかが不安でして…。
宜しくお願いします。 >>121
> 後者の方が圧倒的にメンテナンスも構築も容易なのですが
> 実運用で使うに耐えられるものなのかが不安でして…。
と悩みはじめてすでに5年〜♪ >>122
悩むんですよね…。
Namazuのためだけに静的ページ生成を行うというのはどうも。
Namazuだと、ドキュメントルート以下にあるファイルでも
Webに公開されていない(リンクされていない)ものも引っかかってしまうので、
そう考えると wget の方が理にかなってるんですよね。
#メルマガなんかで直接URLを通知されるページは元も子も無いですが。。 >>120
最初は一度にまとめてやった方が速いと思うのだろうけど。
例えば5メガずつindexを書き出す場合、今のindexサイズが200メガだったら
後50メガ追加するのに約1ギガの書き込み、消去を行うことになる。
これはとても大変だ。
ただディスクアクセスだけではない。
indexサイズがでかければメモリ、cpuの処理も時間が掛かる。 2006-01-29: Namazu 2.0.15 を公開
ISO-8859-* に関する文書の間違いを訂正
RedHat ソフトウェア namazu.spec の不必要なパッチは削除
File::MMagic 1.25 を同梱
MeCab の正式対応
mknmz に -b 及び --use-mecab オプションを追加
mknmz および namazu に --norc オプションを追加
mknmz に --decode-base64 オプションを追加
新しいフィルタ(Gnumeric, Koffice, Mainman/Pipermail, Zip, Visio)を追加
mknmzrc に MECAB, DENY_DDN を追加
ファイル名がDDN である時にスキップ。
日付フィールドによるソート機能の追加
nmzcat, nmzegrep コマンドの追加
フィルタの Windows 対応
(msword.pl, excel.pl, powerpoint.pl, postscript.pl, 等...)
OLE コントロールフィルタ更新
QUERY_STRING の区切りに';' 使用可能
Perl版テストプログラム(pltests) を追加
各種バグフィックス そろそろ入れ換えるかなぁ
それとも別のに浮気するか... Debian Sarge で namazu 2.0.14 を使っているのですが、教えてください。
mknmz を -U オプションを付けて、Samba 内のインデックスを作成しているの
ですが、職場のパソコンのIEのバージョンにより、動作が異なります。
IE 6.0 では、検索結果の表示、クリックした時にファイルが開けるのですが、
IE 5.5 では、検索結果の表示は正常なものの、クリックしたときにパス名が
文字化けして、うまくファイルを開くことができません。
そこで、両バージョンのIEでファイルが正常に開けるように、検索結果を
.namazurc の Replace コマンドで全体を " " で囲む等ということが可能
でしょうか?それとも、もっとよい方法が存在するのでしょうか?
よろしくお願いします。m(._.)m
>>131 です。 自己レス申し訳ないです。
再度、確認したら、自分の設定がおかしかったか、キャッシュが禍したのか原
因は不明でしたが、いずれのバージョンのIEでもまともに表示し、ファイルを
開くことができました。
確認したこと、.mknamazurc で lang=ja.SJIS、 mknmz -U オプション。
すれ汚し、申し訳ありませんでした。m(._.)m
な〜
「Namazu を使った検索ファイルシステム」
http://www.ipl.t.u-tokyo.ac.jp/~kaz/ptt/arc/313/313.html
って公開されてないのかの〜 >>133
作者に聞いてみたら?
Windows は Google、MS、Yahoo! 製があるけど
UNIX にはないよね? >>133
研究者連中、面白いものを作っても、
作って論文にしただけで満足して死蔵するケース多すぎ。
公開しようとするといろいろ面倒なのはわかるが、
なんとかならんものかのう。
>>136
> 公開しようとするといろいろ面倒
を136がなんとかしてくれると。
>133
http://www.spa.is.uec.ac.jp/~takita/CBNS/ を見てくれ。
…と言いたいところだが、電通大情報システム学専攻のネットワークが切れていて今は見れんようです。
復旧したら見てください。
一応、激しく汚いソース(NetBSD 1.6.2 からの差分)も置いてあります。 はじめてNmazuに挑戦しまた
nknmzrc実行後
http://〜/namazu.cgiにアクセスするとブラウザが真っ白
・・・
どこで間違っているのでしょう。
ヒントください
OS FreeBSD portsから導入
ブラウザ winXP IE 2006-03-12: Namazu 2.0.16 を公開
* セキュリティフィックスリリース
Directory traversal 問題を修正
* 空白を含むファイル名の文書に対応
* NTFS のアクセス権で読み込み許可がないものは処理をスキップするように変更
>>139
インデックスが読み込めていないときにそうなった
まずnamazuで結果が出てくるか確認しろ
次にnamazurcの中身を確認しろ >>142
nknmzrc実行後、沢山ファイルが作成された
取り合えず、動作しなくてもいいから表示してほしい・・・
作成されたファイルの中身を見ようとしたら何も表示されない
もしかしてファイル名だけ作成された?
まず"namazu (適当なキーワード)" で検索結果がでる?
出なければ~/.namazurcか/etc/namazurcでのインデックスのパスが違う ports@FreeBSDのnamazu2が更新そぞろなも。 Emacsでnamazu.elを使用しているのですが、
出力結果をutf-8にしたいのですが、どの辺をいじれば可能でしょうか なまずでサイズの小さく、検索の早く、漏れのないインデックスの作り方。
なまずにすべての作業を任せずに文字コード変換、Kakasiをあらかじめ
自分でやっておく。 フィルタも使わない。
自分で確実にテキストに変換できたことを確認してからなまずに渡す。
インデックスに登録しないような一語の単語や記号などをあらかじめ削除する。
これでOk>
>>148
専用のスクリプトを用意して cron とかで作成させると
効果的なんだろうか? >>149
nkfの最新版(それ以前もたぶん)はUTF-8の文字コードを誤認する。
これをすべてNAMAZUに任せると当然、検索できないindexが作成される。
丹誠込めて念入りにindexを作ることが重要だ。ちゃんと変換できてるとか目で見て。