>>11
じゃあ君は速いとでも?w
探検
10GBのCSVファイルのソートが遅いのはなぜですか?
12デフォルトの名無しさん
2023/08/09(水) 07:46:15.85ID:Aj0Whal013デフォルトの名無しさん
2023/08/09(水) 07:47:25.44ID:Aj0Whal0 CSVのソートが遅いのは社会的共同体の中で自然に共有されうる普遍的事実である
2023/08/09(水) 10:35:23.16ID:ZMTba8c6
まぁRDBMS使った方がいいわな
15デフォルトの名無しさん
2023/08/09(水) 11:06:02.05ID:qEKEd4/l 何をつかっても遅いものは遅いw
2023/08/09(水) 15:27:00.04ID:a25ApkGr
実装次第で遅くなりそうなケースだな
フレームワークとコピペだけで戦ってきたやつには荷が重いだろう
フレームワークとコピペだけで戦ってきたやつには荷が重いだろう
2023/08/09(水) 16:22:02.52ID:coMLMuQp
jsonやmessagepackよりは速いかも知れないな
18デフォルトの名無しさん
2023/08/10(木) 00:02:20.56ID:gjwqjVE1 10GBはファイルの大きさであって、データの件数ではないんだよな
2023/08/10(木) 01:18:52.99ID:qMn8aig+
10GB のデータをソートするには、
並べ替えた途中経過のデータも持っておく必要があるから、
100GBぐらいのメモリが必要なのでは?
メモリが少ないと、途中経過のデータをハードディスクに保存して、
メモリを空けないといけない。スワップ
並べ替えた途中経過のデータも持っておく必要があるから、
100GBぐらいのメモリが必要なのでは?
メモリが少ないと、途中経過のデータをハードディスクに保存して、
メモリを空けないといけない。スワップ
20デフォルトの名無しさん
2023/08/10(木) 01:20:23.88ID:lIBN6+0k >>18
レコード数を3とする、ソートせよ
レコード数を3とする、ソートせよ
21デフォルトの名無しさん
2023/08/10(木) 02:07:49.13ID:ljCEt4I+ ソートのキーだけでいい
2023/08/10(木) 10:55:32.60ID:AypbHuiV
メモリーに乗りそうな大きさに分割してソートして
それをマージソートするのが一番早いんじゃね?
それをマージソートするのが一番早いんじゃね?
23デフォルトの名無しさん
2023/08/10(木) 11:29:41.03ID:YYBOmFjO >>20
レコード数が1でソートの必要がないかも知れない。
レコード数が1でソートの必要がないかも知れない。
24デフォルトの名無しさん
2023/08/10(木) 11:33:16.87ID:YYBOmFjO >>1
検索早くないのでは?要するにただのテキストの塊なので grep コマンドとか使って検索できるってだけのことで、その状態ではインデックスなしの全検索だから遅くなると思う。
検索早くないのでは?要するにただのテキストの塊なので grep コマンドとか使って検索できるってだけのことで、その状態ではインデックスなしの全検索だから遅くなると思う。
25デフォルトの名無しさん
2023/08/10(木) 20:54:16.43ID:TWiH3Zx3 10GBのファイルを書き換えながらソートしているのかな?
2023/08/13(日) 12:14:40.57ID:mxfdwtiA
Diskのデフラグ並みだな
2023/08/16(水) 10:29:29.77ID:g5j2pEtW
ゲッ!!(/||| ̄▽)y-ξ⌒◇ヾ( ̄  ̄;)ジュッ
2023/08/27(日) 20:18:09.89ID:m39XqcII
( Д ) ゚ ゚
2023/09/01(金) 20:23:04.85ID:MSzaVfqT
どないやねん、意味がわからん
30デフォルトの名無しさん
2023/09/12(火) 12:29:39.47ID:QOX8wfhQ 何行何列か示せと
31デフォルトの名無しさん
2023/09/12(火) 12:38:34.37ID:A3YXlMvb >>30
1億行、125列
1億行、125列
2023/09/12(火) 12:46:05.28ID:DJD1APYm
こんな頭の悪いスレ上げるのはなぜですか?
33デフォルトの名無しさん
2023/09/12(火) 14:42:44.77ID:A3YXlMvb なぜ下げるんだい?
2023/09/12(火) 14:59:33.38ID:BQ9Iu4K/
なんで10GBもあるデータをCSVで管理しようと思ったんだろうな
35デフォルトの名無しさん
2023/09/12(火) 17:11:08.62ID:zmLL4dpk 10GBもあるデータをCSVにしようとした訳ではなく
何も考えずにCSVで管理してたらいつの間にか10GBになったんだろう
何も考えずにCSVで管理してたらいつの間にか10GBになったんだろう
2023/09/12(火) 18:09:26.28ID:BQ9Iu4K/
そっかw
37デフォルトの名無しさん
2023/09/14(木) 15:11:27.86ID:Ur1UGoF938デフォルトの名無しさん
2023/09/15(金) 19:50:24.13ID:V4ggyvBY 巨大なデータをSQLiteで処理するためのメモ
https://fanぶろぐs.jp/scripts/archive/11/0
https://fanぶろぐs.jp/scripts/archive/11/0
2023/09/15(金) 20:30:51.52ID:mLRMgWkC
やさいい
2023/09/27(水) 20:16:21.16ID:PKUrAitV
まず各ブロック当たり1000行とかに分ける。ブロック単位でソートする。
1.ブロックA/B を連結してAB間でソート。 B=全体の数/2
2.ブロックA+1, B+1 で連結してソート
3. ブロックA+全体の数/2- 1(前半最後まで)、ブロックB+前半最後までを連結してソート
4.今度は全体の前半で1-3 風にブロックソート。後半〜最後までで1-3 風にブロックソート
5. 前半〜前半+3/4 でブロックソート、前半+2/4〜前半+4/4 でブロックソート、
......
・・・・
ってのを大昔 BASIC で作ったのですが、なぜかデータがゼロに
なってしまうバグが出て作るのを止めてしまいました。ちゃんちゃん。駄目じゃん俺。
1.ブロックA/B を連結してAB間でソート。 B=全体の数/2
2.ブロックA+1, B+1 で連結してソート
3. ブロックA+全体の数/2- 1(前半最後まで)、ブロックB+前半最後までを連結してソート
4.今度は全体の前半で1-3 風にブロックソート。後半〜最後までで1-3 風にブロックソート
5. 前半〜前半+3/4 でブロックソート、前半+2/4〜前半+4/4 でブロックソート、
......
・・・・
ってのを大昔 BASIC で作ったのですが、なぜかデータがゼロに
なってしまうバグが出て作るのを止めてしまいました。ちゃんちゃん。駄目じゃん俺。
41デフォルトの名無しさん
2023/10/04(水) 21:29:03.45ID:ja1//dn8 だいたいデータの入れ替えに時間が掛かるんだよな
メディアがHDDとかだと尚更
普通はインデックスで実データを間接参照させるんだが
まあ、やって無いんだろうなぁ
メディアがHDDとかだと尚更
普通はインデックスで実データを間接参照させるんだが
まあ、やって無いんだろうなぁ
42デフォルトの名無しさん
2023/10/05(木) 11:43:25.54ID:AvBTKCCq 速度を優先するなら固定長CSVの採用をオススメする
各行へのランダムシークが出来るし並び替えに必要な行の入れ替えも可能になる
最近のutf-8などを使いたい場合は文字数での管理が難しくなるがあくまでもストレージ上でのサイズを基準にして
クラスタサイズも考慮し列サイズを決めていこう
検索性能を上げるには外部インデックスを作るしかないだろう
ファイルサイズは100倍ぐらいに増えるかもしれないが単純なファイルキャッシュだけで下手なDBでは敵わない速度が出せるだろう
各行へのランダムシークが出来るし並び替えに必要な行の入れ替えも可能になる
最近のutf-8などを使いたい場合は文字数での管理が難しくなるがあくまでもストレージ上でのサイズを基準にして
クラスタサイズも考慮し列サイズを決めていこう
検索性能を上げるには外部インデックスを作るしかないだろう
ファイルサイズは100倍ぐらいに増えるかもしれないが単純なファイルキャッシュだけで下手なDBでは敵わない速度が出せるだろう
2023/10/08(日) 19:41:45.47ID:Unktq8Si
>>31
125列のレコードが1億行あったらカンマだけで10GB超えるんだが
125列のレコードが1億行あったらカンマだけで10GB超えるんだが
2023/10/12(木) 21:43:44.24ID:5lP2cmIF
ひとつが100MBくらいのファイルになるように
ディレクトリ構造でB木をつくって(アンバランスでもOK)
個々にソートしたものを最後に結合
ディレクトリ構造でB木をつくって(アンバランスでもOK)
個々にソートしたものを最後に結合
2024/11/08(金) 00:13:58.03ID:0/QV09gu
csvだから遅いとかはない、デシリアライズして云々するよりそのままテキスト(あるいはその部分文字列、フィールド)として比較するならむしろ有利
単にサイズの問題、メモリより十分小さいサイズに分割(今どきなら数GBなんで100MBあたり)して個別にソート、マージ
むしろテキストにシリアライズされたデータにおいて、最も実用的な類のフォーマットに入る
単にサイズの問題、メモリより十分小さいサイズに分割(今どきなら数GBなんで100MBあたり)して個別にソート、マージ
むしろテキストにシリアライズされたデータにおいて、最も実用的な類のフォーマットに入る
46デフォルトの名無しさん
2025/05/10(土) 00:23:13.60ID:Fj2J3+nY とすと
2025/05/10(土) 14:35:35.59ID:7IHH6CUB
クソスレかとおもったら想像以上に真面目に考察してるスレだったw
2025/05/10(土) 20:02:05.08ID:ij0zz7My
マジレスはあるかもしれんが別に真面目な考察はないだろ
実は良スレだったんだと雰囲気で既成事実にするな
実は良スレだったんだと雰囲気で既成事実にするな
2025/05/12(月) 11:20:32.62ID:Zw0HuL6G
DBをエクスポートしたら数GB出てきたとか普通だけど
レスを投稿する
ニュース
- 立民・野田代表「早急に辞任を」 首相官邸筋の核兵器保有発言 ★3 [蚤の市★]
- 高市政権の核兵器保有発言「事実なら非常に深刻な事態。国際社会は警戒すべき」中国 ★3 [お断り★]
- 日銀、0.75%に利上げ - 30年ぶり高水準、物価高抑制 ★6 [ぐれ★]
- 松村沙友理「いい女っていっぱいおるけどいい男あんまおらんくない?30オーバーでいい男性ってみんな結婚してる」★2 [muffin★]
- 【野球】メジャー挑戦・村上宗隆 22日に期限迫るも市場沈黙… 三振率や変化球対応を懸念 「日本Uターン」悪夢が現実味 米報道 [冬月記者★]
- 【東京】西東京市で親子4人が倒れた状態で見つかる [ぐれ★]
- 【安倍朗報】声優の上坂すみれさん、一般人がドン引きするレベルの乳を見せつける [884040186]
- 【速報】小泉防衛大臣、非核三原則破棄も選択肢 [369521721]
- 【実況】博衣こよりのえちえちスーパーダンガンロンパ6🧪
- 【実況】博衣こよりのえちえちスーパーダンガンロンパ7🧪
- サーナイト第1条!(・o・🦎)お国の為に死ねる人~🙋🏡
- ザンギっていいよね
