>>276
いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。
なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。
全文検索エンジン Hyper Estraier 2
2011/02/10(木) 13:07:41
2011/02/10(木) 13:47:37
>>277
インデックスの容量 -> テキスト情報量に依存
クロール時間 -> クロール方法に依存
マニュアルをちゃんと読んでから検討したほうがいいよ。
インデックスの容量 -> テキスト情報量に依存
クロール時間 -> クロール方法に依存
マニュアルをちゃんと読んでから検討したほうがいいよ。
279名無しさん@お腹いっぱい。
2011/02/10(木) 23:56:21 最近のMinGWでコンパイルに成功したかたいますか?
ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、
実行すると異郷終了します
そもそもqdbmのmake checkでvtestが失敗するようで、
コンパイルできないのが正しいんでしょうか?
一応バイナリ版のqdbmを持ってきて実行しても
やはりインデックス作成で異常終了してしまいました
なにかポインタがあれば教えてください
ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、
実行すると異郷終了します
そもそもqdbmのmake checkでvtestが失敗するようで、
コンパイルできないのが正しいんでしょうか?
一応バイナリ版のqdbmを持ってきて実行しても
やはりインデックス作成で異常終了してしまいました
なにかポインタがあれば教えてください
2011/04/14(木) 21:08:55.94
大文字小文字を区別して検索できるようにして欲しい
2011/04/17(日) 12:28:30.18
インデックスがでかくなってくると速度落ちないですか?
回避する方法ありますか?
回避する方法ありますか?
282281
2011/04/17(日) 12:31:21.73 >>251も自分だ。10ヶ月ほど前にも書き込んでたが。
解決策見つからず。
解決策見つからず。
2011/05/07(土) 18:02:40.44
>>251,281-282
この遅くなるって、
c:\hyperestraier\estcmd: INFO: flushing index words: name=index ...
ってでてディスク凄いアクセスするようになって遅くなって感じですか?
自分は上記のような感じで
ファイル数12500、総サイズ1.33G程度のHTMLファイルを
スキャンし終わるまで14分位かかってしまいます。
オプションとしては次のようにしているのですが・・・
gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400
この遅くなるって、
c:\hyperestraier\estcmd: INFO: flushing index words: name=index ...
ってでてディスク凄いアクセスするようになって遅くなって感じですか?
自分は上記のような感じで
ファイル数12500、総サイズ1.33G程度のHTMLファイルを
スキャンし終わるまで14分位かかってしまいます。
オプションとしては次のようにしているのですが・・・
gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400
2011/05/11(水) 20:07:25.33
もう見てる人居ないんだろうか
2011/05/11(水) 20:21:05.25
見てるけど、開発が止まっちゃってて新しい話題がないよなー
2011/05/12(木) 05:31:56.98
一応チェックリストには入れてる
2011/05/13(金) 19:03:09.08
namazu と これくらいかー?
使える全文検索は。
使える全文検索は。
288名無しさん@お腹いっぱい。
2011/07/13(水) 06:07:12.29 luceneで決まりだろ
2011/07/13(水) 16:35:33.19
クラウドサービスの検索エンジンでタダで使えるのってあるのでしょうか?
全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。
何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。
query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり(それか不要な
結果をフィルタリングしたり)、出力のフォーマットを調整できればとかいう希望をもってます。
全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。
何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。
query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり(それか不要な
結果をフィルタリングしたり)、出力のフォーマットを調整できればとかいう希望をもってます。
290名無しさん@お腹いっぱい。
2011/07/19(火) 00:44:48.88 今はkyotoだっけtokyoだっけ?
2011/07/19(火) 12:55:07.65
作者がmixiからgoogleにいったよね
2011/07/19(火) 14:38:11.73
>>291
へえ、ついに検索の総本山へか
へえ、ついに検索の総本山へか
293名無しさん@お腹いっぱい。
2011/08/13(土) 15:26:49.80 え?自分で会社作ってたんじゃなかったっけ??
2011/08/15(月) 10:45:08.18
失敗したんだって
295名無しさん@お腹いっぱい。
2011/08/28(日) 22:41:21.12 解決策が見つからなかったので質問させてください。
Windows用バイナリをWindowsサーバに入れて、ファイルサーバの検索用に
使用しています。ファイルサーバのパスに「−」(全角マイナス)が含ま
れている場合、検索結果のリンクの「−」の部分がunicodeの「-」になっ
てしまい、リンクからファイルを開くことができません。
unicode→Shift-JISの変換がうまくいっていないのかと思いますが、どの
ようにすれば解決するのか教えてください。また、この問題はLinuxでは
そもそも発生しない問題でしょうか。
Windows用バイナリ
http://hyperestraier.sourceforge.net/win/
Windows用バイナリをWindowsサーバに入れて、ファイルサーバの検索用に
使用しています。ファイルサーバのパスに「−」(全角マイナス)が含ま
れている場合、検索結果のリンクの「−」の部分がunicodeの「-」になっ
てしまい、リンクからファイルを開くことができません。
unicode→Shift-JISの変換がうまくいっていないのかと思いますが、どの
ようにすれば解決するのか教えてください。また、この問題はLinuxでは
そもそも発生しない問題でしょうか。
Windows用バイナリ
http://hyperestraier.sourceforge.net/win/
2011/09/18(日) 23:41:27.20
P2Pでクローラーを動かしてます。
特定のURLがインデックスされるかを知るにはどうすればよろしいのでしょうか?
特定のURLがインデックスされるかを知るにはどうすればよろしいのでしょうか?
297296
2011/09/18(日) 23:42:18.24 お願いします
298192.774
2011/11/26(土) 01:02:16.43 検索革命のせいか検索デスクの逆リンクがまだ動かない。
2012/01/18(水) 15:49:41.20
mew以外にもhyper estraier で過去ログの高速検索ができるメールソフトないでしょうか
2012/01/18(水) 19:37:28.38
Gnus
301名無しさん@お腹いっぱい。
2012/04/19(木) 18:59:45.66 Hyper EstraierをGoogleアラートに登録してたら、
今日こんな↓
https://gist.github.com/2418271
が送られてきたが、これなんだろ? mac用のruby使ったinstaller?
githubよく知らんので、これが全部なのかなんかの一部なのかも分からん。
なにこれ?
今日こんな↓
https://gist.github.com/2418271
が送られてきたが、これなんだろ? mac用のruby使ったinstaller?
githubよく知らんので、これが全部なのかなんかの一部なのかも分からん。
なにこれ?
2012/04/19(木) 21:59:39.60
2012/04/20(金) 21:10:24.25
やはりMacでしたか。よくわからないのですが、
僕はWinとUbuntuしか持ってないので使い道ないですね。
しかしこれだけ情報が増えた世界で個人で気軽に使える
全文検索エンジンは絶対使わなきゃ損と思ってるのですが、
いまいちもりあがりませんな…
僕はWinとUbuntuしか持ってないので使い道ないですね。
しかしこれだけ情報が増えた世界で個人で気軽に使える
全文検索エンジンは絶対使わなきゃ損と思ってるのですが、
いまいちもりあがりませんな…
2012/04/20(金) 23:35:36.63
>>303
Hyper Estraierが出てきた当時はサイト内検索はnamazuから取って変わると
思っていたけどGoogleカスタム検索のほうが流行ってしまって見ることは
かなり少なくなってしまった気がするな。俺はローカルのメールを検索するのに
現役で使っているけど。
MLログを見てみたら作者がフェードアウトしてしまってもう5年経つのか。
後継のソフトウェアを作ってるみたいだけどもう少し表に出てきてほしい。
Hyper Estraierが出てきた当時はサイト内検索はnamazuから取って変わると
思っていたけどGoogleカスタム検索のほうが流行ってしまって見ることは
かなり少なくなってしまった気がするな。俺はローカルのメールを検索するのに
現役で使っているけど。
MLログを見てみたら作者がフェードアウトしてしまってもう5年経つのか。
後継のソフトウェアを作ってるみたいだけどもう少し表に出てきてほしい。
2012/04/21(土) 19:13:50.93
306303
2012/04/21(土) 20:56:51.07 >>304
うちの会社だけなのかな、よその部署から情報もらおうと思うと
同じ本部内ですらすごく嫌がられる。だからActive Directoryで
公開されているフォルダを全部DesktopHEでインデックス化しちゃったんだよね。
よくない事かもしれないけど、いろいろ分かって捗るw
うちの会社だけなのかな、よその部署から情報もらおうと思うと
同じ本部内ですらすごく嫌がられる。だからActive Directoryで
公開されているフォルダを全部DesktopHEでインデックス化しちゃったんだよね。
よくない事かもしれないけど、いろいろ分かって捗るw
307名無しさん@お腹いっぱい
2012/05/21(月) 00:40:06.77 検索に基礎がなっていない。
308名無しさん@お腹いっぱい。
2012/08/11(土) 17:34:18.82 すいません、質問させてください。
まずは、環境から。
ubuntuにhyperestraier wv xlhtml ppthtmlをインストール。
word、excel等を検索対象とするために、
# cp /usr/share/hyperestraier/filter/* /usr/lib/bin/
(ダメ押し?でこれも # PATH=$PATH:/usr/share/hyperestraier/filter)
これでパスが通るはず?
で、実際にやってみました。
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ 検索対象フォルダ/
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
これで、doc、xls等が検索対象になっていることは確認できましたが、
estcmd: INFO: 26 (~/fuga.ods): registered
sh: 1: estxfilt: not found
と表示され、txtファイル以外の検索はできないようです。
どのようにすれば、doc、xlsファイル等を検索できるでしょうか?
また、そもそもLinuxでMSofficeのファイルを全文検索することは可能なのでしょうか?
さらに、odfファイル全般についても検索可能かをお尋ねしたいと思います。
以上、よろしくお願いいたします。
まずは、環境から。
ubuntuにhyperestraier wv xlhtml ppthtmlをインストール。
word、excel等を検索対象とするために、
# cp /usr/share/hyperestraier/filter/* /usr/lib/bin/
(ダメ押し?でこれも # PATH=$PATH:/usr/share/hyperestraier/filter)
これでパスが通るはず?
で、実際にやってみました。
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ 検索対象フォルダ/
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
これで、doc、xls等が検索対象になっていることは確認できましたが、
estcmd: INFO: 26 (~/fuga.ods): registered
sh: 1: estxfilt: not found
と表示され、txtファイル以外の検索はできないようです。
どのようにすれば、doc、xlsファイル等を検索できるでしょうか?
また、そもそもLinuxでMSofficeのファイルを全文検索することは可能なのでしょうか?
さらに、odfファイル全般についても検索可能かをお尋ねしたいと思います。
以上、よろしくお願いいたします。
309名無しさん@お腹いっぱい。
2012/08/11(土) 17:38:13.25 訂正です。
下の方の
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
↓
$ estcmd search -ic utf-8 -vh インデクスフォルダ/ ほげ
です。 失礼しました。
下の方の
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
↓
$ estcmd search -ic utf-8 -vh インデクスフォルダ/ ほげ
です。 失礼しました。
2012/08/11(土) 18:17:47.26
2012/08/11(土) 19:07:37.99
>>310
おぉ、うまくいきました。
T@estxfilt→H@estfxmsotohtmlと置き換えることで、
xlsとdocが検索できるようになりました。
ありがとうございました。
ところで、ODFファイルの検索は可能なのでしょうか?
MS関連のファイルには対応しているけど、
Linuxで使われているOpenOfficeのファイルに対応してないというのは、
ちょっと納得できないような・・・。
おぉ、うまくいきました。
T@estxfilt→H@estfxmsotohtmlと置き換えることで、
xlsとdocが検索できるようになりました。
ありがとうございました。
ところで、ODFファイルの検索は可能なのでしょうか?
MS関連のファイルには対応しているけど、
Linuxで使われているOpenOfficeのファイルに対応してないというのは、
ちょっと納得できないような・・・。
2012/08/11(土) 20:12:21.99
2012/08/11(土) 20:36:05.84
>>312
レスどうもです。
odsはどうするのでしょうか?
っていうか、そんなスキルないですよorz
フィルタ書くの簡単だとしたら、
なんでLinuxで全文検索が簡単にできるようにならないんでしょうかね?
個人的には、デスクトップ検索はPCの必須アイテムだと考えていますが、
googleデスクトップは終了しちゃうし、DesktopHEは64bitで使えないし、
現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、
デスクトップ検索は、世間的にはあんまり関心のない分野なのかなと思ったりします。
レスどうもです。
odsはどうするのでしょうか?
っていうか、そんなスキルないですよorz
フィルタ書くの簡単だとしたら、
なんでLinuxで全文検索が簡単にできるようにならないんでしょうかね?
個人的には、デスクトップ検索はPCの必須アイテムだと考えていますが、
googleデスクトップは終了しちゃうし、DesktopHEは64bitで使えないし、
現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、
デスクトップ検索は、世間的にはあんまり関心のない分野なのかなと思ったりします。
2012/08/11(土) 20:56:51.31
2012/10/10(水) 14:49:50.26
pandocというのがodfの変換もできるほか、いろいろ変換できそう
2013/05/04(土) 18:53:18.57
>>313
DesktopHEはWin7x64で快適に動作していますが。
DesktopHEはWin7x64で快適に動作していますが。
2016/02/08(月) 08:45:27.23
2007年からメンテされてないんだね
2016/02/08(月) 10:03:53.02
forkがあるけどこっちも止まってるかな
https://github.com/fumiyas/hyperestraier-encore
https://github.com/fumiyas/hyperestraier-encore
2016/11/28(月) 00:25:53.50
ハイパエストレイアって、良い物だと思ってたけど、
何時までも64bit対応しないんでどうしたものかと。
何時までも64bit対応しないんでどうしたものかと。
2016/11/29(火) 08:55:34.02
今時ならgroongaがいいんじゃないかなあと思っている。
321名無しさん@お腹いっぱい。
2017/12/29(金) 07:49:19.75 誰でも簡単にパソコン1台で稼げる方法など
参考までに、
⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。
グーグル検索⇒『宮本のゴウリエセレレ』
XER7GWRJ9A
参考までに、
⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。
グーグル検索⇒『宮本のゴウリエセレレ』
XER7GWRJ9A
2018/01/23(火) 23:16:38.05
(Javaを使わずに)全文検索を構築したくて
今さらながらHyper Estraierを使い始めました
主にPythonから叩いていて、こんなことやっています
https://github.com/ikbhotels/pyperestraier
https://github.com/ikbhotels/dj-estsearch
まずは5ちゃんねる(2ちゃんねる)過去スレ全文検索をターゲットにしています
ここの前スレだとこんな感じ
http://feedintegra.info/search/est2ch
よろしくお願いします
今さらながらHyper Estraierを使い始めました
主にPythonから叩いていて、こんなことやっています
https://github.com/ikbhotels/pyperestraier
https://github.com/ikbhotels/dj-estsearch
まずは5ちゃんねる(2ちゃんねる)過去スレ全文検索をターゲットにしています
ここの前スレだとこんな感じ
http://feedintegra.info/search/est2ch
よろしくお願いします
323名無しさん@お腹いっぱい。
2018/05/22(火) 03:07:11.85 知り合いから教えてもらったパソコン一台でお金持ちになれるやり方
時間がある方はみてもいいかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』
MS75P
時間がある方はみてもいいかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』
MS75P
2020/02/11(火) 15:28:38.93
チエオクレのハゲの悲惨なツイッター
https://twitter.com/aphonedollar
↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑
この自称「ハゲ」とかいうチエオクレのブログが酷すぎる
>「DesktopHE」 はWindows10に対応してないらしい
はぁ??? ★★★大嘘デタラメ★★★を垂れ流すな!!!
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
チエオクレのこのハゲが、Javaの設定を失敗してるだけじゃねえか!!!
嘘デタラメ垂れ流しやがって、このハゲがやっていることは立派な公害じゃねえか!
hatenaとかでまで、必死こいて大嘘をばらまいているんだが
https://twitter.com/5chan_nel (5ch newer account)
https://twitter.com/aphonedollar
↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑
この自称「ハゲ」とかいうチエオクレのブログが酷すぎる
>「DesktopHE」 はWindows10に対応してないらしい
はぁ??? ★★★大嘘デタラメ★★★を垂れ流すな!!!
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
チエオクレのこのハゲが、Javaの設定を失敗してるだけじゃねえか!!!
嘘デタラメ垂れ流しやがって、このハゲがやっていることは立派な公害じゃねえか!
hatenaとかでまで、必死こいて大嘘をばらまいているんだが
https://twitter.com/5chan_nel (5ch newer account)
2021/06/09(水) 04:51:57.15
>>313
>現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、
だとさwww
作者本人が、どさくさで「最強のデスクトップ検索」だとか大法螺こいてんのかぁ?
何がやりたいのか謎な、あんな糞ソフトを垂れ流すな!
>現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、
だとさwww
作者本人が、どさくさで「最強のデスクトップ検索」だとか大法螺こいてんのかぁ?
何がやりたいのか謎な、あんな糞ソフトを垂れ流すな!
326名無しさん@お腹いっぱい。
2024/03/27(水) 19:35:15.90 約束したんだよ
放出してもいいレベルでも出来るな
ガツンとみかんって美味しいとこだけ取って楽な展開のきっかけになるとは何となく
放出してもいいレベルでも出来るな
ガツンとみかんって美味しいとこだけ取って楽な展開のきっかけになるとは何となく
327名無しさん@お腹いっぱい。
2024/03/27(水) 20:18:03.60 えーさんぶんのに謎に見た」と答えるとどちらかといえば、
328名無しさん@お腹いっぱい。
2024/03/27(水) 20:53:33.10 むしろこれがマーケティングだから
青い背景でさ
4に健気さがない若者だらけなんでガチ恋なんだろう
https://asahi.5ch.net/test/read.cgi/newsplus/1711507656/
青い背景でさ
4に健気さがない若者だらけなんでガチ恋なんだろう
https://asahi.5ch.net/test/read.cgi/newsplus/1711507656/
329名無しさん@お腹いっぱい。
2024/03/27(水) 21:56:16.98 何がいいのか?
誰でもいい
誰でもいい
レスを投稿する
ニュース
- 【ライバー刺殺】被害者はフィアンセとタワマン暮らし、旅行「なら1万円でもいいから返して!」高野容疑者(42)は事件5日前にもDMを ★2 [ぐれ★]
- 動画配信中の刺殺事件、被害女性への批判に元埼玉県警刑事「違います」★8 [おっさん友の会★]
- 【話題】ねえねえ“バブル”おじさん、昔は“AT免許”はダサいって言われてたってホント!? [ひぃぃ★]
- 【号外】自民の初当選衆院議員が石破茂首相側から商品券10万円相当受け取り。複数証言 [蚤の市★]
- ママ友が「パスタ1束が7分、5束だから35分」と、茹でた結果… 正しい茹で方って実は知らない?→メーカーに聞いた [バイト歴50年★]
- 配信者刺殺事件にたぬかながコメント「弱者からあんな金の取り方をするやつは、なんか報復があって、然るべしやと思う」 [muffin★]
- 【乞食速報】石破覚醒!商品券一人あたり100,000エーンばら撒き! [781534374]
- 【悲報】 日本人さん、ついに「もやし」を食べ始めてしまう・・・ [303493227]
- 250万ごときで殺人を犯したゴミに同情する日本人が大量発生!!!終わりだよこの国・・・ [784979476]
- 「月光」←最初に思いついたものwww
- 【悲報】名古屋、人気アーティストのライブ公演を軒並み飛ばされるWWWWWWWWWWWWWWWWWWWWWWWWWWWW愛知の若年層の人口流出の一因という説も [988723217]
- 【悲報】人気歌手のaikoさん「3.11のときはどうか震源地が東京でありますように!って願ってたんだよね~」→謝罪 [339712612]