探検
全文検索エンジン Hyper Estraier 2
1名無しさん@お腹いっぱい。
2007/04/17(火) 19:56:122008/01/30(水) 20:11:19
いくらなんでも鯰でいいはないだろ…
検索漏れ大杉でとても使う木になれん
検索漏れ大杉でとても使う木になれん
2008/01/31(木) 10:15:31
>検索漏れ大杉
ヒント Mecab
ヒント Mecab
2008/01/31(木) 14:10:21
namazu+kakasi じゃなくて 鯰+和布蕪ってこと?
2008/02/01(金) 10:36:19
71名無しさん@お腹いっぱい。
2008/02/07(木) 15:54:15 景気よくageます.
Windows版バイナリパッケージのverは1.4.10で止まったままなんでしょうか.
どなたかビルドしておられたらありがたいですが
Windows版バイナリパッケージのverは1.4.10で止まったままなんでしょうか.
どなたかビルドしておられたらありがたいですが
2008/02/09(土) 17:52:06
1.4.10 で困ることあるのか?
2008/02/10(日) 09:18:20
辞書データ変換ツール一般についてと
(製品版のデータを全部持った)体験版のデータ変換についての話が
入り乱れてないか?
2008/02/10(日) 09:19:50
すまん、誤爆した。
75名無しさん@お腹いっぱい。
2008/02/20(水) 02:24:28 これ、データーベース(QDBM)が壊れまくり。
DBが開いた状態で、プロセスが落ちると100%ぶっ飛ぶ
速いらしいが、こんなん怖くて使えないわ。
どうでもいいような、無くなってもいいデータしか扱えないわ。
さてと、1000万件のデータ、ゼロから収集だわ(鬱
なんとかならんでしょうかね
DBが開いた状態で、プロセスが落ちると100%ぶっ飛ぶ
速いらしいが、こんなん怖くて使えないわ。
どうでもいいような、無くなってもいいデータしか扱えないわ。
さてと、1000万件のデータ、ゼロから収集だわ(鬱
なんとかならんでしょうかね
2008/02/20(水) 02:34:44
なんとかしてみてよ。
2008/02/20(水) 08:56:25
俺もbsfilterでqdbm使ってたらすぐ壊れたんでsdbmに変えた・゚・(つД`)・゚・
2008/02/20(水) 10:37:59
2008/02/20(水) 15:07:56
80名無しさん@お腹いっぱい。
2008/02/21(木) 13:32:05 まぁ〜、トラック と
ノーヘルどころか、頭蓋骨すらない脳味噌丸出しのバイク便の差。
高速道路で同じ荷物を運んで どっちの運ちゃんが逝くかは明白。
シートベルト程度の防御は欲しいけど、速さと安全は成り立たないだろね。
RAMにカキコされたキャッシュ程度のモンよ
ノーヘルどころか、頭蓋骨すらない脳味噌丸出しのバイク便の差。
高速道路で同じ荷物を運んで どっちの運ちゃんが逝くかは明白。
シートベルト程度の防御は欲しいけど、速さと安全は成り立たないだろね。
RAMにカキコされたキャッシュ程度のモンよ
81名無しさん@お腹いっぱい。
2008/02/21(木) 18:56:31 >>80
お前喩えのセンスあるな
お前喩えのセンスあるな
2008/02/23(土) 11:56:39
HE+Tokyo Cabinet に変わるまで待てよ
2008/02/23(土) 13:45:46
TC ってさらに速さを追求したライブラリなんじゃネーの?
安全性上がるのか?
安全性上がるのか?
8483
2008/02/23(土) 13:52:412008/02/23(土) 14:11:07
http://alpha.mixi.co.jp/blog/?p=98
> QDBMにおいては、データベースを開いているアプリケーションが異常終了した場合、
> もしくはデータベースを適切に閉じずに終了した場合は、データベースが壊れるように
> していました。それらは明白なバグであり、アプリケーションの作者やそれを使うことを
> 選択したユーザに何らかの意識的な対処を求めることが適切であると考えたからです。
> (中略)
> しかし、上記のような理想主義と「上から目線」では現実の問題に対処できないことを
> 近ごろ感じはじめました。マナーを守らない/守れないユーザやユースケースも結構な
> 割合で存在するのが現実なのです。したがって、TCは、マナーを守らないアプリケー
> ションやそのユーザにも宥和する戦略に転換しました。
突然の停電とか当たり前に起こりうる事態なんだから、
バグとかマナーとかそういう問題じゃないと思うんだよな…
アプリにバグが無くても OS の不具合で落ちることなんかしょっちゅうだしな。
> QDBMにおいては、データベースを開いているアプリケーションが異常終了した場合、
> もしくはデータベースを適切に閉じずに終了した場合は、データベースが壊れるように
> していました。それらは明白なバグであり、アプリケーションの作者やそれを使うことを
> 選択したユーザに何らかの意識的な対処を求めることが適切であると考えたからです。
> (中略)
> しかし、上記のような理想主義と「上から目線」では現実の問題に対処できないことを
> 近ごろ感じはじめました。マナーを守らない/守れないユーザやユースケースも結構な
> 割合で存在するのが現実なのです。したがって、TCは、マナーを守らないアプリケー
> ションやそのユーザにも宥和する戦略に転換しました。
突然の停電とか当たり前に起こりうる事態なんだから、
バグとかマナーとかそういう問題じゃないと思うんだよな…
アプリにバグが無くても OS の不具合で落ちることなんかしょっちゅうだしな。
2008/02/23(土) 16:37:48
サバイバビリティの概念がないソフトウェア設計者がいるのか。
能力的に対処できないということはなさそうだから、
実世界の面倒くさいことから逃避するための言い訳か。
> アプリにバグが無くても OS の不具合で落ちることなんかしょっちゅうだしな。
そんな事がしょっちゅうあるようなOSは使わないのが普通。
開発者がアレだとユーザもアレなのが集まるというのを実感しないでもない。
能力的に対処できないということはなさそうだから、
実世界の面倒くさいことから逃避するための言い訳か。
> アプリにバグが無くても OS の不具合で落ちることなんかしょっちゅうだしな。
そんな事がしょっちゅうあるようなOSは使わないのが普通。
開発者がアレだとユーザもアレなのが集まるというのを実感しないでもない。
2008/02/23(土) 16:53:57
>>86
おまえは Windows を使ったことがないのか?
おまえは Windows を使ったことがないのか?
2008/02/24(日) 05:10:28
●ノードマスタの異常終了(再起動シナイ)
サーバールートdirの _pid と _stop の削除
●DBの復旧
estcmd repair index_path
サーバールートdirの _pid と _stop の削除
●DBの復旧
estcmd repair index_path
2008/02/24(日) 14:10:33
共有鯖で、クローラーを動かしてますが、突然、
「out of memory」で止まってしまいました。( p_q)エ-ン
クローラールートディレクトリ(rootdir)内が飛んだようで
以後、
estwaver crawl rootdir で 「could not open」となり起動できません。
メモリが少ないのはわかるのですが、先日までは正常に動作してました。
rootdirの復活方法など対処方法を教えてください (o*。_。)oペコッ
「out of memory」で止まってしまいました。( p_q)エ-ン
クローラールートディレクトリ(rootdir)内が飛んだようで
以後、
estwaver crawl rootdir で 「could not open」となり起動できません。
メモリが少ないのはわかるのですが、先日までは正常に動作してました。
rootdirの復活方法など対処方法を教えてください (o*。_。)oペコッ
2008/02/24(日) 15:35:47
つ…釣り?
2008/02/24(日) 15:57:55
あるいは「一般人」かも
2008/02/24(日) 19:53:33
>>85,86
耐障害性の確保は上位層でやれってことだろ。
オーバーヘッドを減らすためには妥当な技術選択だ。
あんたらが考えてるくらいのことはとっくに考えてるはずだよ。
その例としてTokyo Tyrantでちゃんと耐障害性を確保しているしな。
http://alpha.mixi.co.jp/blog/?p=147
これベースでHEを作ってくれないかなぁ。
耐障害性の確保は上位層でやれってことだろ。
オーバーヘッドを減らすためには妥当な技術選択だ。
あんたらが考えてるくらいのことはとっくに考えてるはずだよ。
その例としてTokyo Tyrantでちゃんと耐障害性を確保しているしな。
http://alpha.mixi.co.jp/blog/?p=147
これベースでHEを作ってくれないかなぁ。
2008/02/24(日) 21:47:33
むしろ今後HEが放棄されそうで心配…。
2008/02/24(日) 22:47:01
mixi.jp 内で動いているエンジンを表に出して欲しい。
2008/02/25(月) 06:44:00
2008/02/26(火) 12:43:58
2008/02/26(火) 22:43:32
トレードオフのある技術選択において何が妥当かはユースケース次第だろう。
consistencyを真面目に考えたらそれこそスタンドアロンでは実現できないし。
consistencyを真面目に考えたらそれこそスタンドアロンでは実現できないし。
2008/02/27(水) 17:41:29
99名無しさん@お腹いっぱい。
2008/02/28(木) 13:12:04 DesktopHEでファイルサイズとテキストサイズの上限を調整する方法教えてくれよ。
2008/03/21(金) 04:12:02
ココもMLも過疎ってるし...
2008/04/03(木) 20:14:51
node配下のインデックスファイルって
別のHEシステムにインポートできないかな。
独立したサーバAで作ったインデックスを
別の独立したサーバBにrsyncで飛ばして してクローン作るとか・・・
別のHEシステムにインポートできないかな。
独立したサーバAで作ったインデックスを
別の独立したサーバBにrsyncで飛ばして してクローン作るとか・・・
2008/04/03(木) 21:54:36
rsyncでやってみれば
多分動くでしょ。AとBのアーキテクチャが同じなら
多分動くでしょ。AとBのアーキテクチャが同じなら
2008/04/03(木) 23:58:23
Q. ビッグエンディアンもしくはリトルエンディアンのマシン上で動きますか?
A. はい。どちらでも動作します。ただし、双方でインデックスを
共有することはできません。
そうでない場合は共有できるんじゃないの?
A. はい。どちらでも動作します。ただし、双方でインデックスを
共有することはできません。
そうでない場合は共有できるんじゃないの?
104名無しさん@お腹いっぱい。
2008/04/04(金) 10:03:10 > 101
私やってますよ
サーバAでestwaverで集めて、サーバBにrsyncで飛ばして、検索はBで
ってシステム構築してます
AもBも同じPC同じOSですが
私やってますよ
サーバAでestwaverで集めて、サーバBにrsyncで飛ばして、検索はBで
ってシステム構築してます
AもBも同じPC同じOSですが
2008/04/04(金) 11:20:55
2008/04/04(金) 11:21:29
107名無しさん@お腹いっぱい。
2008/04/09(水) 23:28:58 tokyocabinetのwin32版って、どこ?
2008/04/10(木) 07:40:41
ttp://tokyocabinet.sourceforge.net/spex-ja.html#faq
Q. : Windowsで利用できませんか?
A. : 残念ながらできません。今のところ対応予定もありません。
Q. : Windowsで利用できませんか?
A. : 残念ながらできません。今のところ対応予定もありません。
109名無しさん@お腹いっぱい。
2008/04/10(木) 10:05:57 お、TCのドキュメントでたんだ。
期待age
期待age
11052
2008/04/17(木) 18:25:172008/04/17(木) 23:37:00
pthはだめなの?
112名無しさん@お腹いっぱい。
2008/04/18(金) 10:46:20 Windowsで作成したデータベースをFreeBSDにコピーして使用しようと思い「P2Pガイド」の
「初期導入の効率化」を参考にデータベースを作成したのですが、検索が上手くいきません。
FreeBSD側に持っていっても、estsmdでは正常に検索できるのですが、サーバを立ち上げて
estcallを使うと、検索結果のヘッダ(ヒット数など)は表示される物の、それに続くはずの
文書一覧が表示されません。
どなたか原因分かる方見えませんか?
「初期導入の効率化」を参考にデータベースを作成したのですが、検索が上手くいきません。
FreeBSD側に持っていっても、estsmdでは正常に検索できるのですが、サーバを立ち上げて
estcallを使うと、検索結果のヘッダ(ヒット数など)は表示される物の、それに続くはずの
文書一覧が表示されません。
どなたか原因分かる方見えませんか?
2008/04/18(金) 17:38:32
>>111
GNU pth というのがあったとですか。勉強になりました。
でも本当の UNIX系OSではなくて UNIXエミュレーション環境なので pth では無理かも。
ともかく調べてみます。ありがとね。
GNU pth というのがあったとですか。勉強になりました。
でも本当の UNIX系OSではなくて UNIXエミュレーション環境なので pth では無理かも。
ともかく調べてみます。ありがとね。
2008/04/24(木) 09:09:51
インデックス作成していたらout of memoryで止まるorz
物理メモリ1GB、仮想メモリ1.4GB使い切る・・・
-ftなんか使う物じゃないんだろうか
javaとかのソースコードも見たいんだけどなぁ・・・
物理メモリ1GB、仮想メモリ1.4GB使い切る・・・
-ftなんか使う物じゃないんだろうか
javaとかのソースコードも見たいんだけどなぁ・・・
2008/04/24(木) 23:32:59
インデックス対象に Excel ファイルとか含まれてる?
Excel のせいでメモリ不足になってるならこういう話がある
http://pmakino.jp/tdiary/20070501.html#p01
Excel のせいでメモリ不足になってるならこういう話がある
http://pmakino.jp/tdiary/20070501.html#p01
2008/04/25(金) 00:03:50
なるほど。参考になりました。
大学の研究室のファイルサーバ(約600GB)の検索用に導入しようと試みているんですが
実験のログやそれをとりまとめたxls、論文のdocやpdf、プレゼン用のppt(x)に
実験プログラムなどなど混沌としているため目的のファイルを探すのが容易になればと・・・
-ftじゃなくて.javaなどもテキストファイルとして認識するようにどこか変更すればいいんだろうか。
がんばっていろいろいじってみます
大学の研究室のファイルサーバ(約600GB)の検索用に導入しようと試みているんですが
実験のログやそれをとりまとめたxls、論文のdocやpdf、プレゼン用のppt(x)に
実験プログラムなどなど混沌としているため目的のファイルを探すのが容易になればと・・・
-ftじゃなくて.javaなどもテキストファイルとして認識するようにどこか変更すればいいんだろうか。
がんばっていろいろいじってみます
117名無しさん@お腹いっぱい。
2008/05/05(月) 21:20:24 KaMailV3でH.E使っているんですが、mh形式のメールを登録したときに、メール内の添付ファイル名で検索することってできるんでしょうか。
H.E単体で、できないものであれば、あきらめようと思っていますが。
H.E単体で、できないものであれば、あきらめようと思っていますが。
2008/05/12(月) 02:11:46
Windowsバイナリ版1.4.9を数台のPCに設置&P2P連携し、
デフォルトの検索インターフェイスやコマンドラインからメタ検索をしているのですが、
似た内容のファイルが複数ヒットすると数件しかスニペット表示されません。
(例えば、5件のファイルがヒットしてもスニペット表示されるのは1件だけとか)
何かオプションを指定するなどしてヒットしたすべてのファイル、
あるいは上位何件かのファイルのスニペットを表示させる、
ということはできないのでしょうか?
デフォルトの検索インターフェイスやコマンドラインからメタ検索をしているのですが、
似た内容のファイルが複数ヒットすると数件しかスニペット表示されません。
(例えば、5件のファイルがヒットしてもスニペット表示されるのは1件だけとか)
何かオプションを指定するなどしてヒットしたすべてのファイル、
あるいは上位何件かのファイルのスニペットを表示させる、
ということはできないのでしょうか?
2008/06/15(日) 02:36:39
Tokyo Estraier http://hyperestraier.sourceforge.net/past/?M=A
てさ、0.0.1とかいうバージョン番号のせいで内容を見る気になってなかったんだけど、
実際見てみたら HE 1.4.13 で Tokyo Cabinet を使えるようにしたものなんだね。
今まではQDBMが壊れやすいせいでHEを敬遠してたのだけど、これは良いかも。
これで実運用してる人とかいるかな?
まあ本命は Tokyo Dystopia なんだけどさ。Rubyバインディングとかつくってほしいなあ。
http://tokyocabinet.sourceforge.net/dystopiadoc/
てさ、0.0.1とかいうバージョン番号のせいで内容を見る気になってなかったんだけど、
実際見てみたら HE 1.4.13 で Tokyo Cabinet を使えるようにしたものなんだね。
今まではQDBMが壊れやすいせいでHEを敬遠してたのだけど、これは良いかも。
これで実運用してる人とかいるかな?
まあ本命は Tokyo Dystopia なんだけどさ。Rubyバインディングとかつくってほしいなあ。
http://tokyocabinet.sourceforge.net/dystopiadoc/
2008/06/15(日) 18:21:12
壊れやすいよね。
問題なのは壊れたのに気づかないという・・・
リペアしてもリペア出来てないという・・・
問題なのは壊れたのに気づかないという・・・
リペアしてもリペア出来てないという・・・
2008/06/16(月) 18:24:46
検索結果をXMLで受け取りたいときはどうしたらいいの?
2008/06/16(月) 18:35:51
estcmd なら estcmd search に
-vxを付けると、属性情報とスニペットをXML形式にして結果を出力します。
ってマニュアルに書いてあるよ。
それ以外は自分でAPI使ってXML返すプログラムを作るってのが
本来の使い方だろうね。
-vxを付けると、属性情報とスニペットをXML形式にして結果を出力します。
ってマニュアルに書いてあるよ。
それ以外は自分でAPI使ってXML返すプログラムを作るってのが
本来の使い方だろうね。
2008/06/16(月) 18:54:39
APIつくらないとダメかなぁ〜
124名無しさん@お腹いっぱい。
2008/06/22(日) 17:24:43 256Mのバーチャルサーバーで動かしてます。
検索時はメモリオーバーになるらしく、プロセスがKILLされまくります。
どれくらいのメモリがあれば使えるものですか?
検索時はメモリオーバーになるらしく、プロセスがKILLされまくります。
どれくらいのメモリがあれば使えるものですか?
2008/06/22(日) 23:17:58
128M の玄箱 HG でも動いているが…
なんか使い方おかしいんじゃね?
なんか使い方おかしいんじゃね?
2008/06/23(月) 00:00:57
>>124
バーチャルサーバのスワップはちゃんととってます?
バーチャルサーバのスワップはちゃんととってます?
2008/06/23(月) 06:32:14
検索対象拡張子を追加するにはどこいじればいいんだろう?
.javaとかをテキストとして処理するようにしたいんだが・・・
.javaとかをテキストとして処理するようにしたいんだが・・・
128124
2008/06/23(月) 16:57:29 バーチャルサーバのスワップ?
どうやって取るんだろ。。( p_q)ワカンネっす PLASKサーバーです
_conf の設定が悪いのでしょうか。。P2P(estmaster)で使ってます。
_confにメモリ周辺の設定ってありましたっけ?
どうやって取るんだろ。。( p_q)ワカンネっす PLASKサーバーです
_conf の設定が悪いのでしょうか。。P2P(estmaster)で使ってます。
_confにメモリ周辺の設定ってありましたっけ?
129名無しさん@お腹いっぱい。
2008/06/24(火) 02:03:12 .netからDLLを利用しようと思ってます。
が、検索のAPIがDLL内でmallocしたものを返す仕様になっており、
メモリ解放ができません。
内部で完結するよう関数追加してビルドしなおししかないでしょうか?
が、検索のAPIがDLL内でmallocしたものを返す仕様になっており、
メモリ解放ができません。
内部で完結するよう関数追加してビルドしなおししかないでしょうか?
2008/06/24(火) 21:40:22
DTDって変更したいときは任意の場所に出来るのかな?
デフォルトのファイルを書き換えるだけ?
デフォルトのファイルを書き換えるだけ?
2008/06/24(火) 22:14:59
2008/06/24(火) 23:50:56
>>131
はい、ラッパー作った方がいいと思います。
ラッパーのビルドもcygwin入れて本体と同じライプラリつかってやるんですよね。きっと。
UNIX系はさっぱりで、makeファイルすらよくわからず、相当時間がかかりそうです。
とり急ぎ直近はSearch系だけestcmdでやっちまおうと思います。
ギャザラはDLL使うのでなんとも不格好なんですが。
はい、ラッパー作った方がいいと思います。
ラッパーのビルドもcygwin入れて本体と同じライプラリつかってやるんですよね。きっと。
UNIX系はさっぱりで、makeファイルすらよくわからず、相当時間がかかりそうです。
とり急ぎ直近はSearch系だけestcmdでやっちまおうと思います。
ギャザラはDLL使うのでなんとも不格好なんですが。
2008/06/25(水) 10:35:07
freeをcrtからインポートすればいいだけじゃないの?
2008/06/26(木) 01:02:03
makeの設定とdllの中身見たらmsvcrt.dllでいいみたいですね
どうもありがとうございました。
どうもありがとうございました。
2008/07/08(火) 20:51:02
質問です。
windows環境でRailsの開発をしててHyper Estraierを使いたいんですが、
配布されているバイナリパッケージにRubyバインディングが見当たりません。
Cygwinでソースをmakeしても、Hyper Estraier本体は入るんですが、
Rubyバインディングのmakeでコケます。
windowsでは無理?
windows環境でRailsの開発をしててHyper Estraierを使いたいんですが、
配布されているバイナリパッケージにRubyバインディングが見当たりません。
Cygwinでソースをmakeしても、Hyper Estraier本体は入るんですが、
Rubyバインディングのmakeでコケます。
windowsでは無理?
2008/07/12(土) 09:15:52
どうコケのかを言わずに、どう答えて欲しいんだろう
2008/07/12(土) 17:24:10
>>135
お前にゃ無理だ。
お前にゃ無理だ。
138名無しさん@お腹いっぱい。
2008/07/24(木) 13:28:58 ショボ頭の自分助けて…
pdfをインデックス化したいんですけど、30MB超えるpdfだと、
文章の途中までしかインデックス化してくれません。。
特にエラーとか出てないんですけどなんでだろ?
$ estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./
一応、-lf -1 -lt -1で、ファイルサイズ制限無しとかにしてみるんだけど、
マニュアルとかGoogle先生とか聞いても対処方法もわかんなくて、、
こんなバカ助かるかな?
pdfをインデックス化したいんですけど、30MB超えるpdfだと、
文章の途中までしかインデックス化してくれません。。
特にエラーとか出てないんですけどなんでだろ?
$ estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./
一応、-lf -1 -lt -1で、ファイルサイズ制限無しとかにしてみるんだけど、
マニュアルとかGoogle先生とか聞いても対処方法もわかんなくて、、
こんなバカ助かるかな?
139fumiyas
2008/07/25(金) 12:27:12 >>138
estfxpdftohtml スクリプト中に「ulimit -v 262144 -t 10 2> "/dev/null"」ってのがあるから
「262144」の部分を適当に多くしてみるとどう?
estfxpdftohtml スクリプト中に「ulimit -v 262144 -t 10 2> "/dev/null"」ってのがあるから
「262144」の部分を適当に多くしてみるとどう?
140fumiyas
2008/07/25(金) 12:55:11 >>114
うちの estmaster もインデックスにデータを投入するごとに肥大化しているような。
お客さんのところでメモリ使用量 1GB 越えも発生したので、調査する予定。(;_;)
… その前に Tokyo Estraier を試してみようかしら?
うちの estmaster もインデックスにデータを投入するごとに肥大化しているような。
お客さんのところでメモリ使用量 1GB 越えも発生したので、調査する予定。(;_;)
… その前に Tokyo Estraier を試してみようかしら?
141名無しさん@お腹いっぱい。
2008/07/25(金) 15:21:53 >>139
うぅ、バカに救いの手をありがとうございます。orz
少しインデックス化できた文章が増えたので、イケルか!と思ったんですが、
値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。_| ̄|○|||
( -t 10 => 500とかもしてみたけどダメだった…)
なにげに、
$ pdftotext -enc UTF-8 -htmlmeta "pdfファイル"
これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。
新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、
「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(゚ロ゚;))((;゚ロ゚)オロオロ
すまん、かえって混乱させてるかも。。
というか、自分混乱してる。
うぅ、バカに救いの手をありがとうございます。orz
少しインデックス化できた文章が増えたので、イケルか!と思ったんですが、
値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。_| ̄|○|||
( -t 10 => 500とかもしてみたけどダメだった…)
なにげに、
$ pdftotext -enc UTF-8 -htmlmeta "pdfファイル"
これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。
新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、
「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(゚ロ゚;))((;゚ロ゚)オロオロ
すまん、かえって混乱させてるかも。。
というか、自分混乱してる。
142fumiyas
2008/07/26(土) 02:26:06 >>141
ああ、わかった…。(たぶん)
pdftotext のバグですね。
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output
の部分を:
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \
| output
とでも書き換えてみてください。(これだと「pre」が単語として登録されてしまうが…。)
# sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
# chmod 755 /usr/bin/estfxpdftotext
とでもして、
$ estcmd gather -cl -fx ".pdf" "T@estfxpdftotext" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./
とするとか。
ああ、わかった…。(たぶん)
pdftotext のバグですね。
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output
の部分を:
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \
| output
とでも書き換えてみてください。(これだと「pre」が単語として登録されてしまうが…。)
# sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
# chmod 755 /usr/bin/estfxpdftotext
とでもして、
$ estcmd gather -cl -fx ".pdf" "T@estfxpdftotext" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./
とするとか。
2008/07/26(土) 11:00:18
>>142
あんただれ?
あんただれ?
144名無しさん@お腹いっぱい。
2008/07/28(月) 14:06:44 >>142
ホントすいません、付き合って頂いちゃってありがとうございます。
pdftotext のバグですか!?
だとすると、こんなド素人に使いこなすのは難しくなっちゃうかも。。現状で満足せなあかんですかね(;´ー`)
スクリプトありがとうございます(人-)
ただかなり初歩的な部分で分からないところが…(滝汗) そもそも sed がイマイチ分かってないしょっぱい自分…
> # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
> # chmod 755 /usr/bin/estfxpdftotext
estfxpdftohtml や estfxpdftotextは /usr/local/share/hyperestraier/filter にあって
/usr/bin には無かったりするんですが、その辺は読み替えろよこんちくしょう的な感じでしょうか…?(゚Д゚;)アワワ
それともそのままやっちゃっても大丈夫的な感じでしょうか?
ホントすいません、付き合って頂いちゃってありがとうございます。
pdftotext のバグですか!?
だとすると、こんなド素人に使いこなすのは難しくなっちゃうかも。。現状で満足せなあかんですかね(;´ー`)
スクリプトありがとうございます(人-)
ただかなり初歩的な部分で分からないところが…(滝汗) そもそも sed がイマイチ分かってないしょっぱい自分…
> # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
> # chmod 755 /usr/bin/estfxpdftotext
estfxpdftohtml や estfxpdftotextは /usr/local/share/hyperestraier/filter にあって
/usr/bin には無かったりするんですが、その辺は読み替えろよこんちくしょう的な感じでしょうか…?(゚Д゚;)アワワ
それともそのままやっちゃっても大丈夫的な感じでしょうか?
145fumiyas
2008/07/29(火) 13:53:59 >>144
まずは pdftotext のバグについて。
pdftotext は -htmlmeta オプションを付けると PDF に含まれる
本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら
[File] - [Properties] で表示される情報) を HTML の <meta> に
含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで
その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。
なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、
estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。
sed がやっていることですが、<pre>〜</pre> の間の <, >, & を
<, >, & に変換しているだけです。
最後に estfxpdftohtml(text) の置き場所ですが、私の手元の Debian の
hyperestraier パッケージでは /usr/bin に置かれているというだけで、
そっちの環境で /usr/local/share/hyperestraier/filter なら、
そっちに合わせて ↑ に置くのがいいと思います。
# sed 's/ -htmlmeta / -raw -nopgbrk /' \
/usr/local/share/hyperestraier/filter/estfxpdftohtml \
>/usr/local/share/hyperestraier/filter/estfxpdftotext
>>143
ハンドル(?)をググると出てくるので、そっちをどうぞ。:-)
まずは pdftotext のバグについて。
pdftotext は -htmlmeta オプションを付けると PDF に含まれる
本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら
[File] - [Properties] で表示される情報) を HTML の <meta> に
含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで
その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。
なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、
estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。
sed がやっていることですが、<pre>〜</pre> の間の <, >, & を
<, >, & に変換しているだけです。
最後に estfxpdftohtml(text) の置き場所ですが、私の手元の Debian の
hyperestraier パッケージでは /usr/bin に置かれているというだけで、
そっちの環境で /usr/local/share/hyperestraier/filter なら、
そっちに合わせて ↑ に置くのがいいと思います。
# sed 's/ -htmlmeta / -raw -nopgbrk /' \
/usr/local/share/hyperestraier/filter/estfxpdftohtml \
>/usr/local/share/hyperestraier/filter/estfxpdftotext
>>143
ハンドル(?)をググると出てくるので、そっちをどうぞ。:-)
146fumiyas
2008/07/29(火) 13:57:46 ありゃ? 「&lt;」(実際は半角)とかが「<」に変換されちまった…。
どうしたらいいの? ま、いいか。
どうしたらいいの? ま、いいか。
147fumiyas
2008/07/29(火) 15:56:25 初心者板で聞いてきました。「&amp;」って書くのね…。
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \
|output
その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \
|output
その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。
148名無しさん@お腹いっぱい。
2008/07/30(水) 18:50:03149fumiyas
2008/08/01(金) 01:35:58 >>148
解決されたようでなによりです。
「pre」が気になるようなら、上で書いたように estfxpdftohtml
の代わりに estfxpdftotext でもどうぞ。estcmd の -fx オプションの
値を変更するのを忘れないように。
解決されたようでなによりです。
「pre」が気になるようなら、上で書いたように estfxpdftohtml
の代わりに estfxpdftotext でもどうぞ。estcmd の -fx オプションの
値を変更するのを忘れないように。
150HE@SHE
2008/09/27(土) 02:48:36 Hyper Estraierで、URI属性をフレーズ検索の対象とする方法はありますでしょうか。
151名無しさん@お腹いっぱい。
2008/10/02(木) 13:47:11 すみません教えてください。
ファイルサーバ(Xとか入れてません)として使っているetchにHyper Estraierを入れてわりと経つのですが、
pdfの日本語がインデックスに入っていないことに気付きました。
いろいろ調べて、ひとまずpdftotextが日本語を変換してくれてないのだ、と分かりました。
degas@debian:~$ pdftotext 日本語入りのpdf.pdf
Error: Unknown character collection 'Adobe-Japan1'
:
Error: Unknown character collection 'Adobe-Japan1'
ってな状況ですorz。xpdfはapt-getでhyperestraierをインストールするときに
推奨パッケージでxpdf-utilsを入れたので、大丈夫だと思っているのですが…。
念のためいまxpdfも入れてみましたが、同じエラーが出ます。
指針が有ればお願いしますm(_ _)m。
ファイルサーバ(Xとか入れてません)として使っているetchにHyper Estraierを入れてわりと経つのですが、
pdfの日本語がインデックスに入っていないことに気付きました。
いろいろ調べて、ひとまずpdftotextが日本語を変換してくれてないのだ、と分かりました。
degas@debian:~$ pdftotext 日本語入りのpdf.pdf
Error: Unknown character collection 'Adobe-Japan1'
:
Error: Unknown character collection 'Adobe-Japan1'
ってな状況ですorz。xpdfはapt-getでhyperestraierをインストールするときに
推奨パッケージでxpdf-utilsを入れたので、大丈夫だと思っているのですが…。
念のためいまxpdfも入れてみましたが、同じエラーが出ます。
指針が有ればお願いしますm(_ _)m。
2008/10/02(木) 14:23:09
Unknown character collection 'Adobe-Japan1' でググっても解決しないの?
xpdf-japanese とやらを入れてる?
xpdf-japanese とやらを入れてる?
2008/10/02(木) 14:29:43
ttp://www.foolabs.com/xpdf/download.html
にある
xpdf-japanese.tar.gz
は入れた?
にある
xpdf-japanese.tar.gz
は入れた?
2008/10/02(木) 15:11:58
ありがとうございます。
xpdf-japaneseはapt-getだと入らないのですよ…何でか分からないけど。
xpdf-japaneseはapt-getだと入らないのですよ…何でか分からないけど。
2008/10/02(木) 15:19:29
そうですか。私にも何でか分かりません。
156151,153
2008/10/02(木) 16:59:34 解決しました。
xpdf-commonをapt-getでインストール、
cmap-adobe-japan1を取ってきてdpkgでインストール、
さらに/etc/xpdf/xpdfrcに
include /etc/xpdf/xpdfrc-japanese.dpkg-new
を書き加えればOKでした。
apt-getしか使えない男にお付き合いいただきありがとうございました。
お邪魔しました。
xpdf-commonをapt-getでインストール、
cmap-adobe-japan1を取ってきてdpkgでインストール、
さらに/etc/xpdf/xpdfrcに
include /etc/xpdf/xpdfrc-japanese.dpkg-new
を書き加えればOKでした。
apt-getしか使えない男にお付き合いいただきありがとうございました。
お邪魔しました。
2008/10/02(木) 17:05:15
ファイルを指定ディレクトリに置くだけだからapt-getイラネですよ。
DLしてtar xvfzしてREADMEだかINSTALLだか読めば分かると思う。
DLしてtar xvfzしてREADMEだかINSTALLだか読めば分かると思う。
2008/10/20(月) 15:21:23
tokyo estraierはここ以外で存在が話題になっていないんだけど
商用、あるいは公用の検索システムに勝手に使っちゃっていいんだろうか
商用、あるいは公用の検索システムに勝手に使っちゃっていいんだろうか
159fumiyas
2008/10/27(月) 11:44:332008/10/28(火) 18:27:33
2008/10/28(火) 18:40:31
データベースファイルの先頭バイトを覗いたら、[depot]って書かれてたりして
2008/10/28(火) 21:50:58
>>161
う…_attrフォルダの中に「depot」ファイルがあるんだが
う…_attrフォルダの中に「depot」ファイルがあるんだが
2008/10/29(水) 10:07:46
過去のバージョンと、Windows版のバイナリパッケージのページが落ちてるようなんだが。
UNIX板でアレだけどWin版の1.4.10持ってる人だれか上げてくれないかな…
UNIX板でアレだけどWin版の1.4.10持ってる人だれか上げてくれないかな…
2008/10/29(水) 11:16:02
>>163
ttp://www2.uploda.org/uporg1754116.zip.html
ttp://www2.uploda.org/uporg1754116.zip.html
2008/10/29(水) 11:38:31
ディレクトリ一覧がデフォルトでは表示されなくなっただけなので
正確なファイル名が分かるとか、検索サイト等のキャッシュから手繰るとかで
落とせますよ。
ttp://hyperestraier.sourceforge.net/win/hyperestraier-1.4.10-win32.zip
正確なファイル名が分かるとか、検索サイト等のキャッシュから手繰るとかで
落とせますよ。
ttp://hyperestraier.sourceforge.net/win/hyperestraier-1.4.10-win32.zip
2008/10/29(水) 11:47:50
レスを投稿する
ニュース
- 【速報】トランプ大統領、中国の習近平国家主席を「国賓」として招待することに ★3 [ニョキニョキ★]
- 【速報】トランプ大統領、中国の習近平国家主席を「国賓」として招待することに ★4 [ニョキニョキ★]
- 日本と中国を結ぶ12航空路線で全便欠航 中国人に最も人気の海外旅行先は日本から韓国に ★2 [ぐれ★]
- 【東京・足立の車暴走】赤信号無視か 危険運転致死傷疑いも視野に捜査 逮捕された職業不詳の男性(37)は精神疾患で通院歴も ★3 [ぐれ★]
- 【音楽】「なんでこんなバカが国のトップなの?」 若者に人気のバンド「GEZAN」のマヒトゥ・ザ・ピーポーが高市総理に苦言 [シャチ★]
- 防衛費増額「賛成」62・8% 「反対」32・2%を大きく上回る 賛成「18~29歳で8割」世代差あらわ 産経FNN合同世論調査 ★3 [尺アジ★]
- 【実況】博衣こよりのえちえち朝こよ🧪★2
- 【実況】博衣こよりのえちえち朝こよ🧪
- 【悲報】小野田紀美さん、宇宙人みたいな服を着てしまう…また、そのことを突っ込まれブチ切れ中www [856698234]
- 習近平「台湾はアメリカ領」😲 [422186189]
- お前らっていつもここにいるよな
- 【📦】Amazonブラックフライデー、まだまだ良い物盛り沢山な2日目(火曜日)突入!!!
