全文検索エンジン Hyper Estraier 2
最近のMinGWでコンパイルに成功したかたいますか?
ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、
実行すると異郷終了します
そもそもqdbmのmake checkでvtestが失敗するようで、
コンパイルできないのが正しいんでしょうか?
一応バイナリ版のqdbmを持ってきて実行しても
やはりインデックス作成で異常終了してしまいました
なにかポインタがあれば教えてください
インデックスがでかくなってくると速度落ちないですか?
回避する方法ありますか? >>251も自分だ。10ヶ月ほど前にも書き込んでたが。
解決策見つからず。 >>251,281-282
この遅くなるって、
c:\hyperestraier\estcmd: INFO: flushing index words: name=index ...
ってでてディスク凄いアクセスするようになって遅くなって感じですか?
自分は上記のような感じで
ファイル数12500、総サイズ1.33G程度のHTMLファイルを
スキャンし終わるまで14分位かかってしまいます。
オプションとしては次のようにしているのですが・・・
gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400
見てるけど、開発が止まっちゃってて新しい話題がないよなー namazu と これくらいかー?
使える全文検索は。 クラウドサービスの検索エンジンでタダで使えるのってあるのでしょうか?
全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。
何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。
query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり(それか不要な
結果をフィルタリングしたり)、出力のフォーマットを調整できればとかいう希望をもってます。 解決策が見つからなかったので質問させてください。
Windows用バイナリをWindowsサーバに入れて、ファイルサーバの検索用に
使用しています。ファイルサーバのパスに「−」(全角マイナス)が含ま
れている場合、検索結果のリンクの「−」の部分がunicodeの「-」になっ
てしまい、リンクからファイルを開くことができません。
unicode→Shift-JISの変換がうまくいっていないのかと思いますが、どの
ようにすれば解決するのか教えてください。また、この問題はLinuxでは
そもそも発生しない問題でしょうか。
Windows用バイナリ
http://hyperestraier.sourceforge.net/win/ P2Pでクローラーを動かしてます。
特定のURLがインデックスされるかを知るにはどうすればよろしいのでしょうか?
検索革命のせいか検索デスクの逆リンクがまだ動かない。 mew以外にもhyper estraier で過去ログの高速検索ができるメールソフトないでしょうか Hyper EstraierをGoogleアラートに登録してたら、
今日こんな↓
https://gist.github.com/2418271
が送られてきたが、これなんだろ? mac用のruby使ったinstaller?
githubよく知らんので、これが全部なのかなんかの一部なのかも分からん。
なにこれ? Homebrew http://mxcl.github.com/homebrew/
っつうMac用パッケージ管理システムのインストール定義だね。
rubyスクリプトで定義が書けるんだね。
やはりMacでしたか。よくわからないのですが、
僕はWinとUbuntuしか持ってないので使い道ないですね。
しかしこれだけ情報が増えた世界で個人で気軽に使える
全文検索エンジンは絶対使わなきゃ損と思ってるのですが、
いまいちもりあがりませんな…
>>303
Hyper Estraierが出てきた当時はサイト内検索はnamazuから取って変わると
思っていたけどGoogleカスタム検索のほうが流行ってしまって見ることは
かなり少なくなってしまった気がするな。俺はローカルのメールを検索するのに
現役で使っているけど。
MLログを見てみたら作者がフェードアウトしてしまってもう5年経つのか。
後継のソフトウェアを作ってるみたいだけどもう少し表に出てきてほしい。 >>304
>>303さんとは別の者だけど
ブログ見る限りは、子供できて家庭が忙しくて
プライベートで全文検索どころじゃないのかなあと
googleに再就職した、とは書いてあるけど >>304
うちの会社だけなのかな、よその部署から情報もらおうと思うと
同じ本部内ですらすごく嫌がられる。だからActive Directoryで
公開されているフォルダを全部DesktopHEでインデックス化しちゃったんだよね。
よくない事かもしれないけど、いろいろ分かって捗るw すいません、質問させてください。
まずは、環境から。
ubuntuにhyperestraier wv xlhtml ppthtmlをインストール。
word、excel等を検索対象とするために、
# cp /usr/share/hyperestraier/filter/* /usr/lib/bin/
(ダメ押し?でこれも # PATH=$PATH:/usr/share/hyperestraier/filter)
これでパスが通るはず?
で、実際にやってみました。
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ 検索対象フォルダ/
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
これで、doc、xls等が検索対象になっていることは確認できましたが、
estcmd: INFO: 26 (~/fuga.ods): registered
sh: 1: estxfilt: not found
と表示され、txtファイル以外の検索はできないようです。
どのようにすれば、doc、xlsファイル等を検索できるでしょうか?
また、そもそもLinuxでMSofficeのファイルを全文検索することは可能なのでしょうか?
さらに、odfファイル全般についても検索可能かをお尋ねしたいと思います。
以上、よろしくお願いいたします。 訂正です。
下の方の
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
↓
$ estcmd search -ic utf-8 -vh インデクスフォルダ/ ほげ
です。 失礼しました。 >>309
estfxmsotohtml を使うんじゃないの。
H@estfxmsotohtml でhtmlにして登録じゃないの。 >>310
おぉ、うまくいきました。
T@estxfilt→H@estfxmsotohtmlと置き換えることで、
xlsとdocが検索できるようになりました。
ありがとうございました。
ところで、ODFファイルの検索は可能なのでしょうか?
MS関連のファイルには対応しているけど、
Linuxで使われているOpenOfficeのファイルに対応してないというのは、
ちょっと納得できないような・・・。 >>311
ODFがメジャーになる前だったからなあ……
odt2txt ってコマンドがあるからこいつを使ってフィルタを作ればいいんじゃないかな。
シェルスクリプトでフィルタ書くの簡単だし。 >>312
レスどうもです。
odsはどうするのでしょうか?
っていうか、そんなスキルないですよorz
フィルタ書くの簡単だとしたら、
なんでLinuxで全文検索が簡単にできるようにならないんでしょうかね?
個人的には、デスクトップ検索はPCの必須アイテムだと考えていますが、
googleデスクトップは終了しちゃうし、DesktopHEは64bitで使えないし、
現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、
デスクトップ検索は、世間的にはあんまり関心のない分野なのかなと思ったりします。 >>313
知らんがな。
おまえの愚痴に付き合う気はない。
欲しい人は自分で書く。そういう世界だから。
あとデスクトップ検索アプリは他にちゃんとあるし、フィルタもすでに作っている人がいる。 pandocというのがodfの変換もできるほか、いろいろ変換できそう
>>313
DesktopHEはWin7x64で快適に動作していますが。 ハイパエストレイアって、良い物だと思ってたけど、
何時までも64bit対応しないんでどうしたものかと。 今時ならgroongaがいいんじゃないかなあと思っている。 誰でも簡単にパソコン1台で稼げる方法など
参考までに、
⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。
グーグル検索⇒『宮本のゴウリエセレレ』
XER7GWRJ9A (Javaを使わずに)全文検索を構築したくて
今さらながらHyper Estraierを使い始めました
主にPythonから叩いていて、こんなことやっています
https://github.com/ikbhotels/pyperestraier
https://github.com/ikbhotels/dj-estsearch
まずは5ちゃんねる(2ちゃんねる)過去スレ全文検索をターゲットにしています
ここの前スレだとこんな感じ
http://feedintegra.info/search/est2ch
よろしくお願いします 知り合いから教えてもらったパソコン一台でお金持ちになれるやり方
時間がある方はみてもいいかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』
MS75P チエオクレのハゲの悲惨なツイッター
https://twitter.com/aphonedollar
↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑
この自称「ハゲ」とかいうチエオクレのブログが酷すぎる
>「DesktopHE」 はWindows10に対応してないらしい
はぁ??? ★★★大嘘デタラメ★★★を垂れ流すな!!!
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
チエオクレのこのハゲが、Javaの設定を失敗してるだけじゃねえか!!!
嘘デタラメ垂れ流しやがって、このハゲがやっていることは立派な公害じゃねえか!
hatenaとかでまで、必死こいて大嘘をばらまいているんだが
https://twitter.com/5chan_nel (5ch newer account) >>313
>現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、
だとさwww
作者本人が、どさくさで「最強のデスクトップ検索」だとか大法螺こいてんのかぁ?
何がやりたいのか謎な、あんな糞ソフトを垂れ流すな! 約束したんだよ
放出してもいいレベルでも出来るな
ガツンとみかんって美味しいとこだけ取って楽な展開のきっかけになるとは何となく えーさんぶんのに謎に見た」と答えるとどちらかといえば、