全文検索エンジン Hyper Estraier 2

**名無しさん＠お腹いっぱい。** · 2009/11/20(金) 08:54:17

Estraierで2chのログファイルを全文検索してJaneで表示できないでしょうか。
DATファイルを全文検索に入れるだけじゃなくて、名前やスレタイで絞り込めれば最高なのですが。

DesktopHEで利用しようとしております。

**名無しさん＠お腹いっぱい。** · 2009/11/20(金) 14:16:19

>>197
私も探してみたけど、そのものは無いみたい。
よくやる作業ならcgiとか作るんじゃないかな。

コマンドから手作業するときは、例えばこんな感じ。
消したいやつを検索して
estcmd search -vu -attr '@uri STRINC /path/to/del/' _index BadWord
OKなら上のコマンドに以下を追加
|awk '$1 ~ /^[0-9]+/{print $1}' |while read id; do estcmd out -cl _index $id; done

**名無しさん＠お腹いっぱい。** · 2009/11/20(金) 16:26:25

>>198
出来ないことはないと思うけど、面倒くさいかもね。dat2htmlのフィルタ作って読みこませて、
DesktopHEの関連付けはjaneにすればいいみたいな。

私はhtmlに変換してブラウザで全文検索してる。そういう人の方が多いと思うけど。

**名無しさん＠お腹いっぱい。** · 2009/11/20(金) 22:49:29

>>200
速レスありがとう。
htmlに変換してって毎日巡回するたびにdat2html走らせてるの？
それとも真夜中にバッチ処理？

いずれにせよ、HDD容量が倍必要ですよね？

**名無しさん＠お腹いっぱい。** · 2009/11/21(土) 12:31:28

>>201
>>毎日巡回するたびにdat2html走らせてるの？
そうだよ。1時間ごとにdat2htmlを走らせてる。ロードアベレージを見て負荷が大きいときは処理しないようにしている。
ログは8GBくらいある。datファイルは定期的に削除している。
ウェブブラウザから検索できるので、LAN内で利用出来て重宝している。

**名無しさん＠お腹いっぱい。** · 2009/11/21(土) 23:28:31

>>202
うちもログは6Gぐらいあります。
全部変換するとなると15ｇぐらいいきそうですよねorz

Windowsだからロードアベレージ監視できないのと、指定したコテハンがNASDAQについて
レスした発言とかを知りたくても特定がとてつもなく難しいのがネックになりそう。

Threadsearchと併用しないと駄目ですかね。

**名無しさん＠お腹いっぱい。** · 2009/11/27(金) 00:40:30

XREAで設置しようとしたけど、インストールの段階で躓いたorz
cannot find -liconvとかでてきてるし・・・

libiconvの入れ方に問題があるのかなぁ・・・。

**名無しさん＠お腹いっぱい。** · 2010/01/07(木) 21:28:29

某サイト丸ごと吸い上げようと、
クローラーの設定seeddepthを50にしたら、５時間かかっても１つもインデックスできなかった...

種文書を全部吸い上げてからインデックスするとは知らんかった。
seeddepth１～２でよさそうね。

**名無しさん＠お腹いっぱい。** · 2010/01/15(金) 16:12:43

Hyper Estraier のｗｉｎを使っている方に質問です。

当方初心者。
インストール、インデックス作成まではできました。なんとか。

しかし、estseek.confの内容変更の段で（だと思ってるんですが・・・）つまづいています。
replaceの行の変更はどのようにしたらよろしいのか教えていただけないでしょうか？

何卒よろしくお願いいたします。

**名無しさん＠お腹いっぱい。** · 2010/01/16(土) 02:43:00

>>206
win版も使ったことはありますが、それだけでは何がなんだか分かりません。
estcmd inform casket は通りますか?
Hyper Estraier の画面は出るのですか?
表示のどこかに不満があるのですか?
どうなって欲しくて、現状どうなっているのか書いてください。

**名無しさん＠お腹いっぱい。** · 2010/01/18(月) 15:45:09

ゴミのような2chのログも、こいつを使うと宝の山になる。
はらしょー

**名無しさん＠お腹いっぱい。** · 2010/02/05(金) 14:01:07

Hyper Estraier 1.4.10(Win)を利用している者です。

ブラウザの検索結果画面のリンクをクリックしてもジャンプしないという経験をした方はいないでしょうか？
今、その状態です。

検索結果画面のソースを丸々コピーしたｈｔｍｌファイルを作成し、それをブラウザに表示し、リンクをクリックすれば目的の文書にジャンプします。
すごく不思議な感じです。ブラウザはＩＥ、sleipnirで確認しました。

どのようにすればジャンプするようになるかおわかりの方、教えていただけないでしょうか？
これは、もうｈｔｍｌの問題に過ぎないような気もしますが、よろしくお願いいたします。

**名無しさん＠お腹いっぱい。** · 2010/02/05(金) 22:04:05

文字コードの問題じゃね？

**名無しさん＠お腹いっぱい。** · 2010/02/07(日) 17:19:49

鯖、HEてよりは、ブラウザ、クライアントの問題ぽく聞こえる。

**209** · 2010/02/08(月) 08:11:35

>>211
ブラウザは、他にオペラも試しました。同じ結果でした。
クライアントも４人分のLAN接続しているPCから試しました。同じ結果でした。

>>210
仮に文字コードの問題なら、対処法はありますでしょうか？

何卒よろしくお願いいたします。

**名無しさん＠お腹いっぱい。** · 2010/02/08(月) 20:12:30

まずは、本当に文字コードの問題かどうかを確かめるべきです
フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出して
それをブラウザから開くことができれば、文字コードの問題だと思います

**209,212** · 2010/02/09(火) 08:13:55

>>213
>フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出し

やってみました。ダメでした。相変わらずジャンプしてくれません。

考えるに、estseek.conf の replace設定なのかな、と。
これについては、自分でも自信がなかったので、下記に示します。
当方の場合、c:\の直下に「server」のフォルダを作成し、そこに「estseek.cgi」、「casket」等を入れております。

－－－－－－－－－－－－－－－－－－－－－－－－－－－
replace: ^file:///c:\server\{{!}}http://127.0.0.1/
replace: /index\.html?${{!}}/
－－－－－－－－－－－－－－－－－－－－－－－－－－－
このような記載でよろしいのでしょうか？

**209,212,214** · 2010/02/09(火) 16:47:54

追記します。

estseek.conf のreplace設定を見直してみました。
試行錯誤の結果、
－－－－－－－－－－－－－－－－－－－－－－－－－－－
replace: file:///c|/server/{{!}}http://サーバPCのIPアドレス/
replace: /index\.html?${{!}}/
－－－－－－－－－－－－－－－－－－－－－－－－－－－
とすることによりまして、
検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、

http://サーバPCのIPアドレス/|http://サーバPCのIPアドレス/・・・・・

となりました。
この、「｜」を挟んで繰り返される「http://サーバPCのIPアドレス/」の最初の方、および「｜」が消えるようになれば、正常動作するような気がします。

これらを消す、なにか良い方法がありましたら教えていただければ助かります。

**名無しさん＠お腹いっぱい。** · 2010/02/09(火) 20:47:05

replaceの設定は元の設定で問題ない感じがします。

むしろ、showlrealの設定が falseの設定になっていると、
当該現象が発生するように思われます。こちらでも、
同様の現象を確認しました。unix で 1.4.13ですが。

**名無しさん＠お腹いっぱい。** · 2010/02/09(火) 21:38:12

こちらでは、ジャンプしない現象も、その後に改善した状況も確認できました。

replace行を拝見すると、C:\server\ 部分のエスケープがされてないようです。
正しくは、C:\\server\\ではないでしょうか?

そして、C:\\server\\の配下に、実際の検索したいデータが存在する必要があります。estseek.cgiや indexファイルではありません。

showlrealの変更で、ジャンプの可否が確認できたら、この行を修正する必要があります。

以下マニュアルより
-------------
replaceは正規表現によってURIを変換するのに使います。複数回指定できます。
先頭にマッチする「^」を駆使すれば接頭辞（ディレクトリ）の変換ができますし、末尾にマッチする

「$」を駆使すれば接尾辞（拡張子）の変換ができます。例えば、「\.htm${{!}}.html」とすると、末尾の「.htm」を「.html」に変換できます。

「{{!}}」の前の部分は正規表現なので、「\」や「.」にはエスケープ文字「\」を前置する必要があることに注意してください。「{{!}}」の後の置換文字列は正規表現ではないので、エスケープは必要ありません。
--------------

**209,212,214,215** · 2010/02/10(水) 07:57:47

>>216
showlreal　を「true」にしてみましたが、状況は変わりませんでした。
ジャンプする、しないの問題でいえば、ｐｄｆの文書ファイルはジャンプすることが確認されました。
.htmがなぜかジャンプしないのです。

>>217
C:\\server\\と記載し、やってみました。
すると、検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、
c:\server\search\・・・・・
となりました。

htmの文書へは、ジャンプしてくれません。
仮にジャンプしてくれても、LAN内のPCからアクセスした場合、当該文書にアクセスできません。
やはり、http://サーバPCのIPアドレス/・・・のように表示されなくてはならないと思います。

まだまだ試行錯誤中・・・

**名無しさん＠お腹いっぱい。** · 2010/02/10(水) 08:56:54

つーかさ、やってることの意味分かってやってる？
別に「そうしないと君のためにならないよ」なんてくだらない説教をしたいからではなく、
何が分かって何が分からなかったのかを言ってくれないと、どこから説明すればいいのか、
どこを質問すればいいのかを、こっちは全部エスパーしなくちゃならないんだよ。
困ってるのは分かってるから、せめて情報の出し惜しみはしないでくれ。

# 素直に読むと、何も分かってない、replace行の動作の意味や正規表現とはなんぞやを
# すべて説明しなくちゃならないように思えるんだけど..... もしかしてそうなの？

**名無しさん＠お腹いっぱい。** · 2010/02/23(火) 20:50:40

これって英語の検索もはやくなるの？

**名無しさん＠お腹いっぱい。** · 2010/02/24(水) 00:09:09

もちろん早くなるけど、普通に使うと hyper で hyper estraier には引っかかるけど、hyperestraier には引っかかりません
そういうのを引っかけるようにするにはワイルドカードを使うなど工夫しなくてはなりません

**名無しさん＠お腹いっぱい。** · 2010/02/24(水) 12:18:43

http://www.seg.rmit.edu.au/zettair/
英語で使うだけならこっちの方が速かったりする？

**名無しさん＠お腹いっぱい。** · 2010/02/24(水) 12:50:03

なんだ、宣伝かよ

**名無しさん＠お腹いっぱい。** · 2010/02/24(水) 16:57:45

日本語で最速なのはこれっぽいけど
英語で最速なのがどれなにか知りたかったんだ

**名無しさん＠お腹いっぱい。** · 2010/03/08(月) 21:40:20

亀レスにもほどがあるがズバリそのものがあります。

>>198
Datファイル全文検索ソフト
http://frozenlib.net/DatE/
>DatEはHyperEstraierを使用してJaneのログを高速に検索するソフトです。

**名無しさん＠お腹いっぱい。** · 2010/03/16(火) 22:31:58

｢file size limit exceeded」で、いきなりダウンしたよ。

システムによって２Ｇとかのファイル制限あるから、
logファイルの大きさには注意しましょ。
ログの記録レベルを煽りましょう～

**名無しさん＠お腹いっぱい。** · 2010/03/25(木) 00:58:26

indexサイズが小さくて、もれなく検索できればいい。
あと書庫内検索。重要度順位は入らんから不足無しで出るのが良い。
web用途ではなくデスクトップで使うには
書庫内と不足なしが大事。
順位は無くて良い。開いてみれば済むからな。
これはそういう使い方出来る?

**名無しさん＠お腹いっぱい。** · 2010/03/25(木) 01:06:28

複雑なアルゴリズムはいらない。
Grepの手助け程度で良い。
書庫に対応する。
いいやつ無いですか?

**名無しさん＠お腹いっぱい。** · 2010/03/25(木) 02:01:51

フィルタ書けばいいじゃん。

**名無しさん＠お腹いっぱい。** · 2010/03/25(木) 07:11:50

全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。
UTF8や16では、全角のアルファベットは世界共通の配置になってますか。
言語ごとに異なる位置にありますか。
統一した方が良いと思いますが。コード位置がわかりません、

**名無しさん＠お腹いっぱい。** · 2010/03/25(木) 07:29:47

N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。
このソフトはどっちですか。
日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。
文字単位では日本語一文字と英語一文字の価値が同等になりますが
実際の情報量は日本語の方が大きいです。
英語の2文字か3文字くらいの情報量がありそう。
バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。

**名無しさん＠お腹いっぱい。** · 2010/03/25(木) 07:31:23

何が言いたいのかさっぱり分かりません！＼(￣∧￣)／

# 思いついた単語を羅列してるだけみたいだけど在日？

**名無しさん＠お腹いっぱい。** · 2010/03/25(木) 10:19:59

脊髄反射で在日とか言うネトウヨ？

**名無しさん＠お腹いっぱい。** · 2010/03/26(金) 11:17:22

ということにしたいのですね。

**名無しさん＠お腹いっぱい。** · 2010/03/26(金) 12:04:40

いいえ、自分が理解できないだけなのを認めたくないだけです。

**名無しさん＠お腹いっぱい。** · 2010/03/26(金) 13:35:20

ということにしたいのですね。

**名無しさん＠お腹いっぱい。** · 2010/03/26(金) 13:56:04

はい。

**名無しさん＠お腹いっぱい。** · 2010/03/26(金) 14:41:05

>>231
http://hyperestraier.sourceforge.net/uguide-ja.html#wordextraction
バイト単位ではなく文字単位2-gram
ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能
また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、２文字は不可

こんぐらい教えてやれよ、無能なやつばっかだな

**名無しさん＠お腹いっぱい。** · 2010/03/26(金) 15:22:12

分かってんならすぐに教えてやれよ、ノロマだな

という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか？
もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では？

元々の問い（かどうかも分からない）は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は
英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、
N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし
ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238

**名無しさん＠お腹いっぱい。** · 2010/03/26(金) 20:42:39

サンクス
いまローカルでgrep手助け用検索開発してる
もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。

**名無しさん＠お腹いっぱい。** · 2010/03/26(金) 23:42:38

ちょｗまて
漏れなしバイナリ検索ならgrepで十分だろ
インデックス化するメリットないぞ

**名無しさん＠お腹いっぱい。** · 2010/03/26(金) 23:58:55

数ギガ、数十ギガとデータあったらどうする?

**名無しさん＠お腹いっぱい。** · 2010/03/27(土) 00:22:50

もうその話あきた。よそでやれ

**名無しさん＠お腹いっぱい。** · 2010/04/14(水) 09:33:15

mixiで公開してる東京なんとか
とかいう奴はこれの上位版？

**名無しさん＠お腹いっぱい。** · 2010/04/14(水) 11:36:00

TokyoCabinetは検索エンジンというよりそのバックエンド、かな？

**名無しさん＠お腹いっぱい。** · 2010/05/01(土) 16:32:06

これはなんでこんな速いんだ
転置インデックスだけの速さじゃないよね

**名無しさん＠お腹いっぱい。** · 2010/05/19(水) 20:34:25

hyper estraierで3000報の論文を検索しまくったら
予想外に研究が進んで、凶授どもが俺のことを
天才と勘違いしてやがるｗ
こんなダメ人間に希望を与えてくれた作者氏に
頭が下がる思いです。

**名無しさん＠お腹いっぱい。** · 2010/05/21(金) 21:40:15

公式メーリングリストは敷居が高いのと、
若干過疎気味なので、こちらで質問させてください。

windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は
インデックスを作成し、検索できるようになりました。
後は掲示板のデータベースの検索が残っています。
SQLという言語で読み書きしてるらしいのですが、
hyper estraierでデータベースのインデックスを
作成するにはどうすればよいのでしょうか？
検索してみたのですが、windows環境での方法は
見つかりませんでした。
windows環境でインデックスを作成する方法の伝授、
もしくは説明してるサイトがありましたら、教示願います。
当方、組み込み系のプログラムの経験はありますが、
windowsプログラム、webアプリ、SQLは素人状態です。

要領を得ない、質問をした本人がいまいちわかってない
自覚がある質問で申し訳ありませんが、よろしくお願いします。

**名無しさん＠お腹いっぱい。** · 2010/05/24(月) 12:53:33

たぶん一番普通の方法はwebクローラーを使ってインデックスを作成
ttp://hyperestraier.sourceforge.net/cguide-ja.html

うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作
いろんな方法があってC,Java,Rubu,Perl,Pythonとか
ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。
頑張ればcsvデータ→シェルスクリプト＋estcmdでもできなくはないと思う。

**名無しさん＠お腹いっぱい。** · 2010/05/26(水) 02:11:25

>>249
248です。
ありがとうございました。
まだわかっていない部分があるので、
まずはwebクローラーを使って試行してみます。

**名無しさん＠お腹いっぱい。** · 2010/06/01(火) 20:00:23

数が増えるとフラッシュしまくりで速度低下するんですが。
解決方法ありますか。

**名無しさん＠お腹いっぱい。** · 2010/06/02(水) 19:06:56

複数ファイルの書庫をディレクトリと認識するエンジンありますか

**名無しさん＠お腹いっぱい。** · 2010/06/03(木) 13:20:31

>>252
書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。

**名無しさん＠お腹いっぱい。** · 2010/06/03(木) 16:48:10

サンクス

**名無しさん＠お腹いっぱい。** · 2010/06/04(金) 20:57:30

【岩波書店】　Google問題の核心
　　　　　　　　―― 開かれた検索システムのために ――
　　　　　　　　　　　　　　　　　　牧野　二郎
http://www.iwanami.co.jp/shinkan/index.html
　世界の出版界に衝撃が走った．Googleが新しいブックサービスを開始したのだ．
Googleなどの検索システムがなぜ興隆し，そこで起こっている収集の限界や偏向問
題など深刻化する問題を各国の事例などを踏まえ徹底的に検証する．それらを解決
するため，著者を軸にさまざまの分野の研究者が集結し，新しい検索システムを提
案する．

**名無しさん＠お腹いっぱい。** · 2010/06/05(土) 22:13:46

>>249
結局、SQLコマンドでデータを取ってきて、
インデックス作成するプログラムを作りました。
ありがとうございました。

**名無しさん＠お腹いっぱい。** · 2010/06/14(月) 16:45:12

すみません、教えてください。
Hyper Estraierを使い始めましたが、
Hyper Estraierで文章の中身だけでなく、
ファイル名やファイルパスも検索のキーワードに
同時にヒットさせたいです。
インデックスの作成や、検索時になにか
オプションで指定するなど、なにか方法がありますか。
よろしくお願いします。

**名無しさん＠お腹いっぱい。** · 2010/06/28(月) 10:43:43

クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。
他に

**名無しさん＠お腹いっぱい。** · 2010/08/05(木) 03:31:58

引き継いで開発してくれる有志っていないの？
低スキルなので、私はだめだけど..

**名無しさん＠お腹いっぱい。** · 2010/08/05(木) 04:16:09

>>259
なんか問題あるっけ？
TCに移行すればいいじゃない。

**名無しさん＠お腹いっぱい。** · 2010/08/05(木) 17:19:59

TCって、KVSじゃないの？

**名無しさん＠お腹いっぱい。** · 2010/08/15(日) 12:35:46

TCは全文検索できるよ。

**名無しさん＠お腹いっぱい。** · 2010/09/22(水) 22:13:39

最近使い始めたものです。
簡便書式で検索した場合、
例えば、「a*」とした場合と「ab*」とした場合に
なぜか「ab*」の方がヒット件数が多くなります。
一応、公式サイト見てきましたが、
それらしいことは書いてありませんでした。
なにか心当たりがある方がいれば、
教えてください。
よろしくお願いします。

**名無しさん＠お腹いっぱい。** · 2010/09/22(水) 22:16:16

>>262
データ量多くなるとまともに使えなくなるけどなｗ

**名無しさん＠お腹いっぱい。** · 2010/09/23(木) 01:38:18

>>264
mixiの全データ検索に使用されているからそれはないのでは？
なにか運用間違えているとか？

**名無しさん＠お腹いっぱい。** · 2010/09/23(木) 02:49:10

TCの全文検索ってQ-GRAMインデックスのことだろ？
データ量増えるとホント糞みたいに重くなって使い物にならんぞ。

**名無しさん＠お腹いっぱい。** · 2010/09/23(木) 19:36:40

作ってる本人も遅いって言ってた気がする。

**265** · 2010/09/23(木) 20:30:00

mixiでTCが使われているのは全文検索じゃなかったね。ゴメン

**名無しさん＠お腹いっぱい。** · 2010/10/07(木) 04:14:16

>>263
N-gramのN=2とかが関係してるんじゃない?
わかち書きを変えてみると違う結果になると思う。

**名無しさん＠お腹いっぱい。** · 2010/10/09(土) 17:47:15

>>269
レス、ありがとうございました。
とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで
検索してみましたが、結果の数は変わりませんでした。
なんにしろ、N-gram関連を勉強してみます。

**名無しさん＠お腹いっぱい。** · 2010/10/11(月) 12:23:08

>>263

wildmax の設定でいくらか調整できると思う。
けれど一文字で検索する場合には、N-gramインデックスでは
あまり良い結果出せないんじゃないかな。

269が書いた通り、2-gramに対し一文字で検索するため、
「ab」を含む文書を取得する
「a」で始まる2-gramをwildmax個拾って、それらを含む文書を
取得する(2gramの出現頻度とかは見てない)

という内部動作なんだろうなと、前に思った。

**名無しさん＠お腹いっぱい。** · 2010/10/27(水) 20:48:38

>>271
遅レスすいません。さっき、気づきました。
詳細な情報ありがとうございました。
とりあえず、ソースを読んでみましたが、
QDBMの中身も把握してないと理解
できなさそうなので、時間のあるときに
見てみます。

**名無しさん＠お腹いっぱい。** · 2010/10/30(土) 15:19:33

誰かこの問題をHyper Estraier でも起きないか検証してくれw
ttp://uinyan.com/windows7_critical_bug/

**名無しさん＠お腹いっぱい。** · 2010/11/16(火) 15:09:15

windowsですが、DesktopHEの他に、似たソフトってないですか？
もしくはどなたか改造されていたり。
フォルダ順ができるだけでも楽になるのですが・・・

**名無しさん＠お腹いっぱい。** · 2011/02/10(木) 08:37:50

ファイル名のみ、または、最初の数行だけをクロールすることは可能？
全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。

**名無しさん＠お腹いっぱい。** · 2011/02/10(木) 09:36:59

”インデックスの容量”を心配しているの？
だとしたら杞憂だと思うんだけど、もしかして組込み系？

**名無しさん＠お腹いっぱい。** · 2011/02/10(木) 13:07:41

>>276
いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。
なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。

**名無しさん＠お腹いっぱい。** · 2011/02/10(木) 13:47:37

>>277
インデックスの容量　->　テキスト情報量に依存
クロール時間　　　　->　クロール方法に依存

マニュアルをちゃんと読んでから検討したほうがいいよ。

**名無しさん＠お腹いっぱい。** · 2011/02/10(木) 23:56:21

最近のMinGWでコンパイルに成功したかたいますか？

ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、
実行すると異郷終了します

そもそもqdbmのmake　checkでvtestが失敗するようで、
コンパイルできないのが正しいんでしょうか？
一応バイナリ版のqdbmを持ってきて実行しても
やはりインデックス作成で異常終了してしまいました

なにかポインタがあれば教えてください

**名無しさん＠お腹いっぱい。** · 2011/04/14(木) 21:08:55.94

大文字小文字を区別して検索できるようにして欲しい

**名無しさん＠お腹いっぱい。** · 2011/04/17(日) 12:28:30.18

インデックスがでかくなってくると速度落ちないですか?
回避する方法ありますか?

**281** · 2011/04/17(日) 12:31:21.73

>>251も自分だ。10ヶ月ほど前にも書き込んでたが。
解決策見つからず。

**名無しさん＠お腹いっぱい。** · 2011/05/07(土) 18:02:40.44

>>251,281-282
この遅くなるって、
c:\hyperestraier\estcmd: INFO: flushing index words: name=index ...
ってでてディスク凄いアクセスするようになって遅くなって感じですか？

自分は上記のような感じで

ファイル数12500、総サイズ1.33G程度のHTMLファイルを
スキャンし終わるまで14分位かかってしまいます。

オプションとしては次のようにしているのですが・・・
gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400

**名無しさん＠お腹いっぱい。** · 2011/05/11(水) 20:07:25.33

もう見てる人居ないんだろうか

**名無しさん＠お腹いっぱい。** · 2011/05/11(水) 20:21:05.25

見てるけど、開発が止まっちゃってて新しい話題がないよなー

**名無しさん＠お腹いっぱい。** · 2011/05/12(木) 05:31:56.98

一応チェックリストには入れてる

**名無しさん＠お腹いっぱい。** · 2011/05/13(金) 19:03:09.08

namazu とこれくらいかー？
使える全文検索は。

**名無しさん＠お腹いっぱい。** · 2011/07/13(水) 06:07:12.29

luceneで決まりだろ

**名無しさん＠お腹いっぱい。** · 2011/07/13(水) 16:35:33.19

クラウドサービスの検索エンジンでタダで使えるのってあるのでしょうか？
全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。
何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。

query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり（それか不要な
結果をフィルタリングしたり）、出力のフォーマットを調整できればとかいう希望をもってます。

**名無しさん＠お腹いっぱい。** · 2011/07/19(火) 00:44:48.88

今はkyotoだっけtokyoだっけ？

**名無しさん＠お腹いっぱい。** · 2011/07/19(火) 12:55:07.65

作者がmixiからgoogleにいったよね

**名無しさん＠お腹いっぱい。** · 2011/07/19(火) 14:38:11.73

>>291
へえ、ついに検索の総本山へか

**名無しさん＠お腹いっぱい。** · 2011/08/13(土) 15:26:49.80

え？自分で会社作ってたんじゃなかったっけ？？

**名無しさん＠お腹いっぱい。** · 2011/08/15(月) 10:45:08.18

失敗したんだって

**名無しさん＠お腹いっぱい。** · 2011/08/28(日) 22:41:21.12

解決策が見つからなかったので質問させてください。
Windows用バイナリをWindowsサーバに入れて、ファイルサーバの検索用に
使用しています。ファイルサーバのパスに「－」（全角マイナス）が含ま
れている場合、検索結果のリンクの「－」の部分がunicodeの「-」になっ
てしまい、リンクからファイルを開くことができません。

unicode→Shift-JISの変換がうまくいっていないのかと思いますが、どの
ようにすれば解決するのか教えてください。また、この問題はLinuxでは
そもそも発生しない問題でしょうか。

Windows用バイナリ
http://hyperestraier.sourceforge.net/win/

**名無しさん＠お腹いっぱい。** · 2011/09/18(日) 23:41:27.20

P2Pでクローラーを動かしてます。

特定のURLがｲﾝﾃﾞｯｸｽされるかを知るにはどうすればよろしいのでしょうか？

**296** · 2011/09/18(日) 23:42:18.24

お願いします

**192.774** · 2011/11/26(土) 01:02:16.43

検索革命のせいか検索デスクの逆リンクがまだ動かない。

**名無しさん＠お腹いっぱい。** · 2012/01/18(水) 15:49:41.20

mew以外にもhyper estraier で過去ログの高速検索ができるメールソフトないでしょうか

**名無しさん＠お腹いっぱい。** · 2012/01/18(水) 19:37:28.38

Gnus

**名無しさん＠お腹いっぱい。** · 2012/04/19(木) 18:59:45.66

Hyper EstraierをGoogleアラートに登録してたら、
今日こんな↓
https://gist.github.com/2418271
が送られてきたが、これなんだろ? mac用のruby使ったinstaller?
githubよく知らんので、これが全部なのかなんかの一部なのかも分からん。
なにこれ?

**名無しさん＠お腹いっぱい。** · 2012/04/19(木) 21:59:39.60

Homebrew http://mxcl.github.com/homebrew/
っつうMac用パッケージ管理システムのインストール定義だね。
rubyスクリプトで定義が書けるんだね。

**名無しさん＠お腹いっぱい。** · 2012/04/20(金) 21:10:24.25

やはりMacでしたか。よくわからないのですが、
僕はWinとUbuntuしか持ってないので使い道ないですね。

しかしこれだけ情報が増えた世界で個人で気軽に使える
全文検索エンジンは絶対使わなきゃ損と思ってるのですが、
いまいちもりあがりませんな…

**名無しさん＠お腹いっぱい。** · 2012/04/20(金) 23:35:36.63

>>303
Hyper Estraierが出てきた当時はサイト内検索はnamazuから取って変わると
思っていたけどGoogleカスタム検索のほうが流行ってしまって見ることは
かなり少なくなってしまった気がするな。俺はローカルのメールを検索するのに
現役で使っているけど。
MLログを見てみたら作者がフェードアウトしてしまってもう5年経つのか。
後継のソフトウェアを作ってるみたいだけどもう少し表に出てきてほしい。

**名無しさん＠お腹いっぱい。** · 2012/04/21(土) 19:13:50.93

>>304
>>303さんとは別の者だけど
ブログ見る限りは、子供できて家庭が忙しくて
プライベートで全文検索どころじゃないのかなあと
googleに再就職した、とは書いてあるけど

**303** · 2012/04/21(土) 20:56:51.07

>>304
うちの会社だけなのかな、よその部署から情報もらおうと思うと
同じ本部内ですらすごく嫌がられる。だからActive Directoryで
公開されているフォルダを全部DesktopHEでインデックス化しちゃったんだよね。
よくない事かもしれないけど、いろいろ分かって捗るｗ

**名無しさん＠お腹いっぱい** · 2012/05/21(月) 00:40:06.77

検索に基礎がなっていない。

**名無しさん＠お腹いっぱい。** · 2012/08/11(土) 17:34:18.82

すいません、質問させてください。

まずは、環境から。
ubuntuにhyperestraier wv xlhtml ppthtmlをインストール。
word、excel等を検索対象とするために、
# cp /usr/share/hyperestraier/filter/* /usr/lib/bin/
(ダメ押し?でこれも　# PATH=$PATH:/usr/share/hyperestraier/filter)
これでパスが通るはず？

で、実際にやってみました。
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ 検索対象フォルダ/
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
これで、doc、xls等が検索対象になっていることは確認できましたが、
estcmd: INFO: 26 (~/fuga.ods): registered
sh: 1: estxfilt: not found
と表示され、txtファイル以外の検索はできないようです。

どのようにすれば、doc、xlsファイル等を検索できるでしょうか？
また、そもそもLinuxでMSofficeのファイルを全文検索することは可能なのでしょうか？
さらに、odfファイル全般についても検索可能かをお尋ねしたいと思います。

以上、よろしくお願いいたします。

**名無しさん＠お腹いっぱい。** · 2012/08/11(土) 17:38:13.25

訂正です。
下の方の
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
　　　↓
$ estcmd search -ic utf-8 -vh インデクスフォルダ/ ほげ

です。　失礼しました。

**名無しさん＠お腹いっぱい。** · 2012/08/11(土) 18:17:47.26

>>309
estfxmsotohtml を使うんじゃないの。
H@estfxmsotohtml でhtmlにして登録じゃないの。

**名無しさん＠お腹いっぱい。** · 2012/08/11(土) 19:07:37.99

>>310
おぉ、うまくいきました。
T@estxfilt→H@estfxmsotohtmlと置き換えることで、
xlsとdocが検索できるようになりました。
ありがとうございました。

ところで、ODFファイルの検索は可能なのでしょうか？
MS関連のファイルには対応しているけど、
Linuxで使われているOpenOfficeのファイルに対応してないというのは、
ちょっと納得できないような・・・。

**名無しさん＠お腹いっぱい。** · 2012/08/11(土) 20:12:21.99

>>311
ODFがメジャーになる前だったからなあ……
odt2txt ってコマンドがあるからこいつを使ってフィルタを作ればいいんじゃないかな。
シェルスクリプトでフィルタ書くの簡単だし。

**名無しさん＠お腹いっぱい。** · 2012/08/11(土) 20:36:05.84

>>312
レスどうもです。
odsはどうするのでしょうか？
っていうか、そんなスキルないですよorz

フィルタ書くの簡単だとしたら、
なんでLinuxで全文検索が簡単にできるようにならないんでしょうかね？
個人的には、デスクトップ検索はPCの必須アイテムだと考えていますが、
googleデスクトップは終了しちゃうし、DesktopHEは64bitで使えないし、
現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、
デスクトップ検索は、世間的にはあんまり関心のない分野なのかなと思ったりします。

**名無しさん＠お腹いっぱい。** · 2012/08/11(土) 20:56:51.31

>>313
知らんがな。
おまえの愚痴に付き合う気はない。
欲しい人は自分で書く。そういう世界だから。
あとデスクトップ検索アプリは他にちゃんとあるし、フィルタもすでに作っている人がいる。

**名無しさん＠お腹いっぱい。** · 2012/10/10(水) 14:49:50.26

pandocというのがodfの変換もできるほか、いろいろ変換できそう

**名無しさん＠お腹いっぱい。** · 2013/05/04(土) 18:53:18.57

>>313
DesktopHEはWin7x64で快適に動作していますが。

**名無しさん＠お腹いっぱい。** · 2016/02/08(月) 08:45:27.23

2007年からメンテされてないんだね

**名無しさん＠お腹いっぱい。** · 2016/02/08(月) 10:03:53.02

forkがあるけどこっちも止まってるかな
https://github.com/fumiyas/hyperestraier-encore

**名無しさん＠お腹いっぱい。** · 2016/11/28(月) 00:25:53.50

ハイパエストレイアって、良い物だと思ってたけど、
何時までも64bit対応しないんでどうしたものかと。

**名無しさん＠お腹いっぱい。** · 2016/11/29(火) 08:55:34.02

今時ならgroongaがいいんじゃないかなあと思っている。

**名無しさん＠お腹いっぱい。** · 2017/12/29(金) 07:49:19.75

誰でも簡単にパソコン1台で稼げる方法など
参考までに、
⇒　『宮本のゴウリエセレレ』というブログで見ることができるらしいです。

グーグル検索⇒『宮本のゴウリエセレレ』

XER7GWRJ9A

**名無しさん＠お腹いっぱい。** · 2018/01/23(火) 23:16:38.05

（Javaを使わずに）全文検索を構築したくて
今さらながらHyper Estraierを使い始めました
主にPythonから叩いていて、こんなことやっています
https://github.com/ikbhotels/pyperestraier
https://github.com/ikbhotels/dj-estsearch
まずは5ちゃんねる（2ちゃんねる）過去スレ全文検索をターゲットにしています
ここの前スレだとこんな感じ
http://feedintegra.info/search/est2ch
よろしくお願いします

**名無しさん＠お腹いっぱい。** · 2018/05/22(火) 03:07:11.85

知り合いから教えてもらったパソコン一台でお金持ちになれるやり方
時間がある方はみてもいいかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法　モニアレフヌノ』

MS75P

**名無しさん＠お腹いっぱい。** · 2020/02/11(火) 15:28:38.93

チエオクレのハゲの悲惨なツイッター
https://twitter.com/aphonedollar

　　↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑
この自称「ハゲ」とかいうチエオクレのブログが酷すぎる

＞「DesktopHE」はWindows10に対応してないらしい

はぁ？？？　★★★大嘘デタラメ★★★を垂れ流すな！！！

■「DesktopHE」はWindows10でも、もちろん使えるわ！！！■
■「DesktopHE」はWindows10でも、もちろん使えるわ！！！■
■「DesktopHE」はWindows10でも、もちろん使えるわ！！！■
■「DesktopHE」はWindows10でも、もちろん使えるわ！！！■
■「DesktopHE」はWindows10でも、もちろん使えるわ！！！■

チエオクレのこのハゲが、Javaの設定を失敗してるだけじゃねえか！！！
嘘デタラメ垂れ流しやがって、このハゲがやっていることは立派な公害じゃねえか！

hatenaとかでまで、必死こいて大嘘をばらまいているんだが　　
https://twitter.com/5chan_nel (5ch newer account)

**名無しさん＠お腹いっぱい。** · 2021/06/09(水) 04:51:57.15

>>313
＞現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、

だとさｗｗｗ　
作者本人が、どさくさで「最強のデスクトップ検索」だとか大法螺こいてんのかぁ？
何がやりたいのか謎な、あんな糞ソフトを垂れ流すな！

**名無しさん＠お腹いっぱい。** · 2024/03/27(水) 19:35:15.90

約束したんだよ
放出してもいいレベルでも出来るな
ガツンとみかんって美味しいとこだけ取って楽な展開のきっかけになるとは何となく

**名無しさん＠お腹いっぱい。** · 2024/03/27(水) 20:18:03.60

えーさんぶんのに謎に見た」と答えるとどちらかといえば、

**名無しさん＠お腹いっぱい。** · 2024/03/27(水) 20:53:33.10

むしろこれがマーケティングだから
青い背景でさ
4に健気さがない若者だらけなんでガチ恋なんだろう
https://asahi.5ch.net/test/read.cgi/newsplus/1711507656/

**名無しさん＠お腹いっぱい。** · 2024/03/27(水) 21:56:16.98

何がいいのか？
誰でもいい

**名無しさん＠お腹いっぱい。** · 2025/05/11(日) 14:34:01.80

ElasticSearchとかいうの試してみたらメモリコミット済み30Gとかいってびっくり
メモリ16Gしかないよ
javaのluceneのやつは全部そんな感じみたいだな

**名無しさん＠お腹いっぱい。** · 2025/06/02(月) 00:47:18.61

recoll使ってみてなんとか使えるようになったがなんか検索結果のノイズが多くて残念
Hyper Estraier は気にならなかったのに移行できん

**名無しさん＠お腹いっぱい。** · 2025/06/04(水) 18:42:47.20

Hyper Estraier の結果順は相当賢かったんだな
recollだめだめだよ、どうにかならんか

**名無しさん＠お腹いっぱい。** · 2025/06/27(金) 16:27:45.22

【帯状疱疹】　ワ　　ク　　チ　　ン　【心臓疾患】
https://rio2016.5ch.net/test/read.cgi/body/1743667378/l50