全文検索エンジンNamazu ver2

1名無しさん@お腹いっぱい。
垢版 |
2005/04/11(月) 01:31:01
全文検索エンジンNamazuについてアレコレ

http://www.namazu.org
2005/06/24(金) 20:58:08
たたかれてないじゃん?
うんざりしてるんなら使わなければいいじゃん?
いまだったらEstraier みたいな高機能なのもあるしさ。
24名無しさん@お腹いっぱい。
垢版 |
2005/06/24(金) 21:42:56
他のを使えと言うのならこのスレはなんなんだ?
25名無しさん@お腹いっぱい。
垢版 |
2005/06/24(金) 22:08:12
>>24
意味不明
2619
垢版 |
2005/06/24(金) 23:52:27
すいません、色々物議をかもしてるようで…
namazuの仕様にうんざりしたのは、色々と
試行錯誤していてもなかなかうまくいかなかったのでつい…。

修正する方法が無いのであれば仕方ないのかもしれませんが、
もしご存知の方がおりましたらご教授いただければ幸いです。
2005/06/25(土) 00:44:51
>>19
> <p>,<dl>タグと

src以下で grep すりゃ一瞬で見つかる。
output.cの
print_hlist()
print_hitnum()
あたり。
2005/06/25(土) 00:51:35
あと、日付の書式は NMZ.field.date を読んでるだけだから,
そっちを直す。 NMZ.*を手で修正した場合は,rfnmz で
NMZ.field.*を再構築すること。
2919
垢版 |
2005/06/25(土) 12:49:47
>>27,28

ありがとうございます!
もう少し頑張ってみます。
30名無しさん@お腹いっぱい。
垢版 |
2005/07/13(水) 14:24:03
namazuをWindows2000で動かしています。Apacheを使ってnamazu.cgiもできましたし、
すべてが順調にすすんでいるかのように思いました,,,が、pdfを検索対象にするにあたって
インデックスを作成すると、
検索対象のファイルを調べています...
1個のファイルがインデックス作成の対象として見つかりました
1/1 - /C|/aaa/tsunaba_abst.pdf Unable to convert pdf file (maybe copying protect
ion)
[基本]
日付: Wed Jul 13 14:21:42 2005
わかち書き: module_kakasi -ieuc -oeuc -w
経過時間 (秒): 1
ファイル/秒: 0.00
システム: MSWin32
Perl: 5.00503
Namazu: 2.0.14

となり、インデックス作成できませんでした。
だれか解決法教えてください
2005/07/13(水) 14:42:28
ttp://www.namazu.org/FAQ.html.ja#xpdf
32名無しさん@お腹いっぱい。
垢版 |
2005/07/13(水) 15:16:15
>>31
それも設定しました!説明などに書いてあるものはすべてしました!mknmz -Cを実行すると、
一応application/pdf: pdf.plが対応になっています。
2005/07/13(水) 16:05:36
>>30
>(maybe copying protection)
元のPDFにprotectionがかかってる?
2005/07/13(水) 21:29:02
>>30
PDFのセキュリティで文字のコピーが許可しないになってる
2005/07/14(木) 08:53:43
そのまんまやんけ
2005/07/14(木) 16:30:39
平和な世の中やなあ。
2005/07/14(木) 20:31:49
>>36
どこが平和だ!!

イラクではアメリカ軍の攻撃で毎日毎日100万人ものイラク人が
虐殺されているのに、よくも平和だとかほざけるもんだな!!
2005/07/14(木) 21:02:58
一日100万ならたいしたことないな。
2005/07/15(金) 17:02:22
もし日本なら130日で日本人全滅か
40名無しさん@お腹いっぱい。
垢版 |
2005/07/17(日) 02:27:52
rastはWindows版がないから駄目。
2005/07/17(日) 03:24:06
ないなら作r(y
2005/07/17(日) 17:48:14
作る能力ない。誰かキボンヌ。

>>41
> ないなら作r(y
2005/07/17(日) 18:21:02
>>42
> 作る能力ない。誰かキボンヌ。

じゃあ、わたしが作りますから、みなさんは手を出さなくていいです(ニヤニヤ)
2005/07/17(日) 18:31:53
Namazu邪悪だなwww
2005/07/17(日) 18:37:09
>>43は、どう見ても、名乗りだけあげてあとは放置犯。
2005/07/24(日) 08:53:54
IPAで同じことやるよりはいいだろ。
47名無しさん@お腹いっぱい。
垢版 |
2005/08/05(金) 11:12:41
namazuのフレーズ検索を利用しているのですが,
"New Order"で検索をかけても100%New Orderというフレーズ
がでるわけでなく,ときどきnewとorderが分離してても
結果としてはじきだしちゃう場合があります.
そういうミスをできるだけ減らしたいのですが,なんかいい
テクニックありますでしょうか?
フレーズ検索とはそういうものでしょうか?

googleだとNew-Orderとして検索するとほぼ100%でフレーズとなって
結果がでてくるのですが..
48名無しさん@お腹いっぱい。
垢版 |
2005/08/05(金) 11:31:00
というか,いまいろいろ調べてたら,
"New Order"で検索をかけてもand検索にしかなっていない事が
判明しました.
フレーズ検索ってどうやってやるの?

環境はFedora4でnamazu of Namazu 2.0.14
です.
よろしくお願いします.
49名無しさん@お腹いっぱい。
垢版 |
2005/08/05(金) 12:04:14
できました
2005/08/05(金) 12:07:32
>>49
どうやって?
51名無しさん@お腹いっぱい。
垢版 |
2005/08/05(金) 12:18:05
"{New Order}"
でよかったです.
2005/08/05(金) 22:41:49
>>51
っていうか 「検索式について」 嫁や。
53名無しさん@お腹いっぱい。
垢版 |
2005/08/09(火) 21:24:22
JAVAでretrievalWordという変数にModern Artsというような文字列をいれて,
下記のような検索プログラムにより,検索エンジンnamazuの
入力として渡しています.
この場合,namazuには,
namazu --max=2000000 "{Modern Arts}" /home/jikken/index_0
という入力が渡される事になります.
なおnamazuは,"{Modern Arts}"という検索がいった場合,
"{}"で囲まれた文字列がフレーズとして検索されるという機能をもっています.
つまりターミナルから
namazu --max=2000000 "{Modern Arts}" /home/jikken/index_0
と入力するとModern Artsの検索としてうまく行くのですが,
java経由で下記のプログラムからnamazuへ検索要求をしても
namazuでは,
"{Modern Arts}"という文字列の検索を行ってしまい,
Modern Artsの検索がうまくいきません.

String proscmd = "namazu --max=2000000 ";
proscmd = proscmd + "\"{" + retrievalWord + "}\" " + indexdir;
System.out.println("proscmds : " + proscmd);
Process process = Runtime.getRuntime().exec(proscmd);

結果
namazu --max=2000000 "{Modern Arts}" /home/jikken/index_0

この原因がどういう点にあるのかを教えて頂けないでしょうか?
もう長いことこれに時間をかけています。でもわかりません。
宜しくお願い致します.
2005/08/10(水) 08:26:03
>>53
結果だけ見ると、
proscmd = proscmd + retrievalWord + indexdir;
でいいような希ガス。
2005/09/02(金) 12:23:34
メール本文のインデックスを作ってくれるのはありがたいんですけど、
メールに添付されている PDF や、Excel, Word ファイルについても
インデックスを作ることはできませんか?
2005/09/02(金) 22:16:22
>>55
使ってるメーラーによる。
2005/09/04(日) 13:40:04
e-mail の milti-part がそのまま保存される、mh形式です。
2005/09/04(日) 21:25:54
>>57
multi-part部も
2.0.15ではインデックスに含めるようにできると思われる
ttp://www.namazu.org/pipermail/namazu-devel-ja/2005-July/000487.html
2.0.15pre1が出ているから試してみては?
59名無しさん@お腹いっぱい。
垢版 |
2005/09/23(金) 18:47:42
ナマズのブログ
http://namazu.asablo.jp/blog/
2005/09/23(金) 21:19:39
>>59
密かに kakasidict の寺西版があるね。
http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/
2005/09/23(金) 21:21:07
s/kakasidict/kanwadict/g
2005/09/23(金) 22:44:14
gj

でも何が増えたのかわからないし、独自加工もしにくいので
mkkanwaする前のソースデータもうpきぼんぬ。GPLだし。
63名無しさん@お腹いっぱい。
垢版 |
2005/11/01(火) 17:00:27
かなり困った。。。

PHPモジュールでmaxhit超えたやつに Too match hitとか出したいんだが
resultが全部0で帰ってくる・・・

どうしたらいいものだろうか
6463
垢版 |
2005/11/01(火) 17:11:13
Too many documents hitだな・・・お恥ずかしい
65名無しさん@お腹いっぱい。
垢版 |
2005/11/04(金) 00:17:55
会社でUNIX畑の人に「とりあえずなまずって検索してみて」といわれたので
OHPとかこのスレとか見てみました。
日本語全文検索ってほぼGoogleでカバーできてるのでは?
Winではあまり普及していないらしいし、導入に面倒がありそうだし
これからのNamazuの役割って一体なんです?
2005/11/04(金) 11:40:39
>>65
McDonald's があれば、モスバーガー、ロッテリアは必要ない、とかそーゆーこと?


2005/11/04(金) 11:47:25
フレッシュネスうまうまだよもん。
駅前広場はラブホのかわりにはならないんだよもん。
2005/11/04(金) 11:54:23
>>65

UNIX畑の人に聞いてみたら?
ってか色々なサイト見てきたんだったら役割は自ずと見えてくるだろうと思うけど

まぁちょっと設計が古かったりするところはあるとはおもうけど
自分に必要な機能が満たされていればNamazuでも十分だとか
そういうことを判別できれば役割はかなりあると思うよ

まぁ役割は自分が必要と思えばあるし、無ければ無いんだよ
2005/11/04(金) 11:58:41
>>66
> McDonald's があれば、モスバーガー、ロッテリアは必要ない、とかそーゆーこと?
McDonald'sがあれば、家庭に台所は必要ない、って言ってるんだろ。
2005/11/04(金) 22:18:50
というか最初は釣りかと思ったが、>>65がリアル素人な気がしてきた。
2005/11/04(金) 23:35:30
>>65です。たくさんレスありがとうございます。
実際自分はWinしか触ったことのないリアル素人で、OHPや主だった関連サイトを
いくつか見てみましたがいまいちピンときませんでしたが
>>69氏の譬えが的を射ているのかな。

つまりGoogleとかはロボットに「検索してもらう」という受動的な検索だけど
なまずは自分で全文を検索に引っ掛けるように設定するという能動的検索
という理解でよろしかろうか。
なんか新しく入った会社で雑務のひとつとして、なまず検索の更新も担当する
ということらしいです。
まだ具体的には本物の鯰なのかcgiの鯰なのかよくわかりませんが、
これからも何かとお世話になるかも知れません。
どうぞよろしくおながいします。
2005/11/05(土) 00:07:50
ぇ、>>54 で言ってる Google って GoogleDeskTop のことじゃなかったのか。
2005/11/05(土) 00:09:33
> なまず検索の更新も担当

これも謎だよなー
ふつうは更新されたファイルを探し出て、インデックスも更新する
スクリプトを自動的に動かすもんだし。
2005/11/05(土) 00:21:14
>>71
> なんか新しく入った会社で雑務のひとつとして、なまず検索の更新も担当する
> ということらしいです。

UNIX畑の人がいるのに素人にこんな雑務をやらせるこの会社って一体…
2005/11/05(土) 01:42:57
OHPってなんだ?
2005/11/05(土) 01:56:18
Obsoleted Home Page だよもん

webブラウザを立ち上げたときやホームボタンで表示されるページだよもんが、
メンテされないのでリンク切れ多発でよく使うのにリンクしてないサイト
多数出現だよもん
2005/11/05(土) 04:24:46
>>75
> OHPってなんだ?

エロゲー方面の隠語
2005/11/05(土) 10:50:34
>>74
UNIX畑の人が抜けるんで、自分が引継ぎということらしいです。
なにしろ社員3人で他SOHOスタッフしかいないんで勘弁してやってください。

>>77
エロゲ用語だったのですか。ふつーに公式サイトの意味で使われているものとばかり(w

>>73
なるほどー。それがふつうなのですね。
昨日全体の業務引き継ぎ内容を大雑把に説明されただけなので
まだ具体的なことはよくわからないのですが、鯰のこともうちょっと
調べてみるです。
2005/11/06(日) 11:04:23
>>75
ドラクエだと棺おけがついてきている状態
8068
垢版 |
2005/11/07(月) 14:10:30
がーん

ttp://www.ki.nu/OHP/
このことかと思ってた俺って。。。。
2005/11/09(水) 00:36:29
Namazu 2.0.14 for Win32 (Beta) を導入したのですが、
C:\namazu\share\namazu\filter\win32 の中に oleword.pl が見当たりません。
Office 2000ではダメで, 2003が導入されている必要があるのでしょうか?

wvWareのWindows版を導入しようとしたのですが、コマンドがシェルスクリプトに
なっているようです。cygwinがいるのでしょうか?
2005/11/09(水) 02:01:38
>>81
俺は cygwin + Namazu-2.0.14.tar.gz を
ソースコンパイルなので環境がだいぶ違うが、
Namazu 本家の namazu-2.0.14.tar.gz を解凍したら
namazu-2.0.14/filter/win32/ 以下に
olemsword.pl があるよ。

後半の方は俺には質問の意味が分からんのでパス。
2005/11/09(水) 06:53:26
なるほど! ソースなら入っていそうですね。試してみます。
2005/11/23(水) 03:46:07
olemsword.pl と olemsexcle.pl なら入ってるよ。
c:\Namazu\share\namazu\filter\win32 以下
2005/11/23(水) 03:46:55
ミス
s/olemsexcle.pl/oleexcel.pl/
86名無しさん@お腹いっぱい。
垢版 |
2005/11/24(木) 11:56:33
Namazuで検索キーワードの該当部分を
検索結果に反映する方法はありますか?

たとえば、デフォだと該当キーワードがHTMLの末のほうにあっても、
検索結果のプレビューではHTMLの上のほうから表示されてキーワードが
出てきませんよね?
それを、キーワードの該当部分の前後文を表示するようにある方法が
あるらしいといわれたので探しているのですが、わかりません。

もしかして指示者が別の検索エンジンと混同してるかも知れないので、
Namazuにそういう機能があるのかどうか だけでも教えていただければ
幸いです。
2005/11/24(木) 13:31:31
estraier にはそういう機能があった。
2005/11/24(木) 13:49:59
>>87
大ヒントありがとうございます!!
超感謝であります!
2005/11/24(木) 15:01:07
>>86
Namazuはインデックスに単語の出現位置を記録していない。
2005/11/25(金) 10:05:19
>>89
指示者もうろ覚えだったようなので、Esterierと混同していたのですね。
そのように報告しました。
どうもありがとうございます(´∀`)
91名無しさん@お腹いっぱい。
垢版 |
2005/12/05(月) 20:35:20
Webサイト内の商品検索に使用したいと思うのですが
namazuの検索結果に画像を表示させることは可能ですか?
2005/12/06(火) 00:45:33
>>91
どこかのサイトで検索結果のサムネイル画像をやろうとしてた希ガス。
template の NMZ.result.normal.?? を変更すれば出来るっけか。
93名無しさん@お腹いっぱい。
垢版 |
2005/12/06(火) 11:41:20
>>91
検索結果に見合った画像を出すのはテンプレ変更だけじゃ無理かも。
「可能か」の問いには、オープンソースだからね。出来るさ。
9491
垢版 |
2005/12/06(火) 13:55:33
ありがとうございます。私のスキルでは簡単には出来そうもないですね。

調べてみたところkabayakiなら出来そうな感じですね。
Vineなんですが導入できるんだろうか。
2005/12/07(水) 08:01:40
>>91 >>94
ML 探したらみつかった。
http://www.stellar.ac/~komai/software/namazu/research/namazu_play/
9691
垢版 |
2005/12/07(水) 12:32:17
>>95
ありがとうございます!
他のどの方法でやるのか悩んでいたので助かりました。
97名無しさん@お腹いっぱい。
垢版 |
2005/12/07(水) 22:12:00
ビバ・オープンソース!
2005/12/08(木) 02:18:24
i Adios Amigos !
2005/12/09(金) 12:44:41
Namazuで動的ページに対してインデックスを作ることはできますか?

DBから取得した情報をHTMLで出力するPHPプログラムがあるとして、
そのHTMLを検索対象にしたい場合が結構でてくると思うんですが、
やっぱりHTMLファイルを生成するしかないんですかね?

wget 等で一度プログラムをたたいてその結果をインデックスすれば
いけないこともないと思うんですが…。
そのようなNamazuモジュールや設定があればご教示いただけると助かります。
2005/12/09(金) 15:47:21
>>99
Namazuじゃないけど、mod_estraierどうよ。
10199
垢版 |
2005/12/09(金) 18:22:14
>>100

そんなモジュールがあったんですね。
参考になります。

ただやっぱりNamazu系のフリーの全文検索ツールじゃないときついですね…
2005/12/09(金) 20:19:13
つか、mod_estraierもHyper Estraierもフリーだよ。
2005/12/10(土) 00:16:49
やっぱりHyper Estraierに誘導するケースが増えてきてるねえ。
まあしょうがないかな。
104101
垢版 |
2005/12/12(月) 15:46:05
>>102,103

言葉足らずですんません。

mod_estraier はキャッシュとして動く感じだと思うので
ちょっと想定の動作とは異なる感じがしました。

Namazuを使うのはほぼ決定なんですが、
動的ページの検索がHyper Estraierでしかできないのであれば
その方向でも考えた方がよさそうですね。
2005/12/12(月) 23:02:18
>>104
キャッシュをインデックス対象にするのであれば
apacheでproxyを立てて
mknmzで --replace=apachecache::replacecode
としてできるかも
106名人
垢版 |
2005/12/18(日) 16:22:25
インディックスの作成の名人ですがどなたか勝負しましょう。
どこかサイトをいってください。
そしてインディックスの小ささと、単語のヒット率で勝負です。
107名人
垢版 |
2005/12/18(日) 16:23:32
工夫の余地の大きい日本語のサイトにしましょう。
108名人
垢版 |
2005/12/19(月) 09:05:34
前処理をよく行っておくことが重要です
2005/12/19(月) 09:09:49
名人殿。なにゆえ「。」が半角なのでつか。
110名無しさん@お腹いっぱい。
垢版 |
2005/12/19(月) 16:27:59
>>109
全角にしました。

誰も挑戦者はいないようなのでインディックスにしたいサイトが
あったら名人が作ってあげます。
小さすぎても大きすぎても駄目。ファイル数が五千から五万くらいのならいいよ。
111 
垢版 |
2006/01/04(水) 18:31:15
2.0.15RC1 テストに参加しる!!
2006/01/11(水) 18:10:18
ウェブ上のバグ報告システムなら気軽に書けるし
仮にメール欄があっても捨てアドなりなんなりで良いけど
メールで ML にバグ報告は色々と敷居が高いよぅ

…と保守がてら言ってみるテスト。
2006/01/11(水) 19:56:47
ファイルの添付も簡単だし、ハードコピーも貼れるし。
(namazu.cgiとかWindows上のエラーダイアログくらいしか出番はないかもしれんが)

Wikiがあるならドキュメントの保守も簡単だし、TracのWiki自体も差分や変更履歴が残るしね。

と言ってみる。
2006/01/11(水) 22:11:11
(´-`).。oO(メールじゃないと報告者減る ってのは正直感覚ずれてる気がする)
115名無しさん@お腹いっぱい。
垢版 |
2006/01/16(月) 10:23:25
現在phpから動的にページを生成して出力しているのですが、
このPHPから出来上がるページをnamazuで検索したいと思っています。
どのような手法がありますでしょうか?
2006/01/16(月) 20:04:50
>>115
一番いいのは、その PHP のページががキャッシュを書き出す方法だけど
Proxy 経由でキャッシュを取るか、無限ループに気をつけて wget するかじゃないかな。
2006/01/22(日) 14:28:27
ファイル数が多く時間がかかるので
インデックスの作成を何日かに分けてやりたいんですが
どうすればいいでしょうか?
途中から再開する方法を知りたいです
118名無しさん@お腹いっぱい。
垢版 |
2006/01/23(月) 03:53:30
>>117
ファイル一覧を作ってから5000個ずつ処理するのがよいぞ
119名無しさん@お腹いっぱい。
垢版 |
2006/01/23(月) 03:56:11
大量のファイルを処理するにはindexサイズが大きくなりすぎないように
することが大切だぞ。
処理中になんどか更新するがとても時間が掛かってしまう
あとでマージせよ
2006/01/23(月) 10:27:28
>>118,119
ありがとうございます。インデックスをいくつかに分けて
作成する事にしました。インデックスのサイズが小さいと
時間の掛かり方も全然違いますね。
全部まとめてやるよりも早く終わりそうです。
121名無しさん@お腹いっぱい。
垢版 |
2006/01/24(火) 13:27:51
動的ページ(DBから情報を取得するもの)を検索対象にするために、
wget + Namazu で実際に運用されている方はおられますか?

DBから取得した情報も全て静的ページに吐き出してからそれをインデックスするのか、
wgetで全部ダウンロードしてそれをインデックスするのかで悩んでいます。

後者の方が圧倒的にメンテナンスも構築も容易なのですが
実運用で使うに耐えられるものなのかが不安でして…。

宜しくお願いします。
2006/01/24(火) 13:30:44
>>121
> 後者の方が圧倒的にメンテナンスも構築も容易なのですが
> 実運用で使うに耐えられるものなのかが不安でして…。

と悩みはじめてすでに5年〜♪
123121
垢版 |
2006/01/24(火) 14:10:24
>>122

悩むんですよね…。
Namazuのためだけに静的ページ生成を行うというのはどうも。

Namazuだと、ドキュメントルート以下にあるファイルでも
Webに公開されていない(リンクされていない)ものも引っかかってしまうので、
そう考えると wget の方が理にかなってるんですよね。

#メルマガなんかで直接URLを通知されるページは元も子も無いですが。。
レスを投稿する

5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況