プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
探検
文字コード総合スレ Part11
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2018/01/22(月) 22:58:23.45ID:UK/uqEp5422デフォルトの名無しさん
2018/06/22(金) 15:59:28.46ID:MYEvMa8B International Business Machines
423デフォルトの名無しさん
2018/06/22(金) 21:46:22.33ID:Lyh+6zOM HAL 9000
"I'm sorry, Dave, I'm afraid I can't do that."
"I'm sorry, Dave, I'm afraid I can't do that."
424デフォルトの名無しさん
2018/06/26(火) 16:07:00.46ID:Jp9iFqVj >>421
だよな。テレタイプじゃないんだから10か13をLE(Line End)にすればいいんだ
だよな。テレタイプじゃないんだから10か13をLE(Line End)にすればいいんだ
425デフォルトの名無しさん
2018/06/26(火) 22:23:33.42ID:PAZ2qH9Y 一方でEBCDICはCRやLFとは別にNLを定義した。
426デフォルトの名無しさん
2018/06/27(水) 00:01:18.11ID:4lF2I/sY コレが正解
https://i.stack.imgur.com/e4xm6.jpg
つまり
carriage returnは行頭に復帰
line feedは行送り
CRだけなら何度も同じ行が上書きされる(行送りされない)
LFだけなら例えば3行だとこうなる
XXXXXXXX
XXXXXXXX
XXXXXXXX
https://i.stack.imgur.com/e4xm6.jpg
つまり
carriage returnは行頭に復帰
line feedは行送り
CRだけなら何度も同じ行が上書きされる(行送りされない)
LFだけなら例えば3行だとこうなる
XXXXXXXX
XXXXXXXX
XXXXXXXX
427デフォルトの名無しさん
2018/06/27(水) 00:23:59.29ID:Xb4utxw7 ⮠じゃなくて⮦
428デフォルトの名無しさん
2018/06/27(水) 00:37:35.67ID:BTQKl7xc429デフォルトの名無しさん
2018/06/27(水) 00:53:00.34ID:4lF2I/sY そんなこといいだしたら
デリミタなんかなんでもいいことになる
ただの文字コードの羅列だからな
CRである必要もないしLFである必要もない
そもそもキミラはアホなこといってるワケ
項目のデリミタにカンマつかったり水平タブ使ったりする
行のデリミタだってなんでもいい
バカはホント困るわぁ
デリミタなんかなんでもいいことになる
ただの文字コードの羅列だからな
CRである必要もないしLFである必要もない
そもそもキミラはアホなこといってるワケ
項目のデリミタにカンマつかったり水平タブ使ったりする
行のデリミタだってなんでもいい
バカはホント困るわぁ
430デフォルトの名無しさん
2018/06/27(水) 02:30:43.48ID:ulOW8GiO >>429
だから決めだけの問題だから何でもいい。
ASCIIという文字コードの規約の問題。
実際にEBCDICは CR でも LF でもない制御コードを別途改行コードとして用意した。
ASCII については規格の策定時から LF を押す国際派(ISO)と CR+LF を押す国内派(ANS)が対立していて一意に決まってない。
だから決めだけの問題だから何でもいい。
ASCIIという文字コードの規約の問題。
実際にEBCDICは CR でも LF でもない制御コードを別途改行コードとして用意した。
ASCII については規格の策定時から LF を押す国際派(ISO)と CR+LF を押す国内派(ANS)が対立していて一意に決まってない。
431デフォルトの名無しさん
2018/06/27(水) 09:37:29.05ID:5XsMHgY7 もともとテレタイプ前提の文字コードだからなあ
432デフォルトの名無しさん
2018/06/27(水) 15:41:13.36ID:2dfKv2YD 文字の話しろ
433デフォルトの名無しさん
2018/06/27(水) 15:48:44.41ID:EKUkk/oX いや文字コードの話するスレだろ
434デフォルトの名無しさん
2018/06/27(水) 18:10:34.52ID:rSBeNI25 CR/LFは文字じゃないのか……(驚愕)
435デフォルトの名無しさん
2018/06/27(水) 21:08:46.77ID:ulOW8GiO 制御コードであって文字ではないな。
少なくともASCIIとUnicodeでは。
少なくともASCIIとUnicodeでは。
436デフォルトの名無しさん
2018/06/27(水) 22:13:49.89ID:5OUSIXAr 制御文字のコードです
437デフォルトの名無しさん
2018/06/27(水) 22:58:53.48ID:+kEwaWuV >>420
その後に書いてある「I'm told that the ASCII committee changed the name of character 0x0A to "newline" around 1996, so the confusion level has been raised even higher.」
ってどういうことなんだろう?
ASCII委員会が1996年頃に0x0Aの名前をnewlineに変更して混乱が深まった?
ASCIIって1986年が最終改訂じゃないの?
その後に書いてある「I'm told that the ASCII committee changed the name of character 0x0A to "newline" around 1996, so the confusion level has been raised even higher.」
ってどういうことなんだろう?
ASCII委員会が1996年頃に0x0Aの名前をnewlineに変更して混乱が深まった?
ASCIIって1986年が最終改訂じゃないの?
438デフォルトの名無しさん
2018/06/28(木) 09:21:41.88ID:iSaREpik コンピュータの出力装置がゴルフボールの電動タイプライターだった時代、
例えば「アンダーライン入りの文字」を打つ時は、普通に文字を打って、
「ラインフィードの無いキャリッジリターン」をやって、
アンダーラインだけを打っていたのだと思う。
すると、キャリッジリターンには、ラインフィードが付く場合と付かない
場合があり、両者は明確に区別できなければならないはず。
ASCIIコードが制定された時代から考えると、改行コードが「CR/LF」
になったのは、そうゆう趣旨かな?と思う。
例えば「アンダーライン入りの文字」を打つ時は、普通に文字を打って、
「ラインフィードの無いキャリッジリターン」をやって、
アンダーラインだけを打っていたのだと思う。
すると、キャリッジリターンには、ラインフィードが付く場合と付かない
場合があり、両者は明確に区別できなければならないはず。
ASCIIコードが制定された時代から考えると、改行コードが「CR/LF」
になったのは、そうゆう趣旨かな?と思う。
439デフォルトの名無しさん
2018/06/28(木) 09:47:22.60ID:/fqEtI/z >>438
キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは?
バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ
キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは?
バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ
440デフォルトの名無しさん
2018/06/28(木) 11:06:58.11ID:5Es+lqIV BOMとかUTF-8Nってなんですか?
441デフォルトの名無しさん
2018/06/28(木) 12:37:34.87ID:iSaREpik >>439
なるほど。ありがとう。
なるほど。ありがとう。
442デフォルトの名無しさん
2018/06/28(木) 12:46:09.81ID:4/XCwkvc unicodeになって重ね打ち的な概念復活してきてね?
443デフォルトの名無しさん
2018/06/28(木) 15:12:27.72ID:LwHbkD+y >>439
重ね打ちをしたくないところはスペースを使えばいい
>コンピュータの出力装置がゴルフボールの電動タイプライターだった時代
スペースは何も印字せずに印字位置を一文字分進めるのであって
その位置の文字を空白で置き換えたり
その位置に空白を挿入するのではなかったのだから
昔読んだ本に、重ね打ちのためにバックスペースを使っている文書を
バックスペースを使えないプリンターでも重ね打ちできるように
変換するプログラムが載っていた
詳細は忘れたけど、CRとスペースを使うのだったと思う
>>438
それだと行頭に戻る機能だけをCRとして用意する理由にはなっても
行頭に戻る機能をLFに持たせない理由にはならないのではないか?
行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
重ね打ちをしたくないところはスペースを使えばいい
>コンピュータの出力装置がゴルフボールの電動タイプライターだった時代
スペースは何も印字せずに印字位置を一文字分進めるのであって
その位置の文字を空白で置き換えたり
その位置に空白を挿入するのではなかったのだから
昔読んだ本に、重ね打ちのためにバックスペースを使っている文書を
バックスペースを使えないプリンターでも重ね打ちできるように
変換するプログラムが載っていた
詳細は忘れたけど、CRとスペースを使うのだったと思う
>>438
それだと行頭に戻る機能だけをCRとして用意する理由にはなっても
行頭に戻る機能をLFに持たせない理由にはならないのではないか?
行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
444デフォルトの名無しさん
2018/06/28(木) 16:20:32.60ID:FdbC2U6h escシーケンスでも改行せずに行頭に戻したり出来たからな
445デフォルトの名無しさん
2018/06/28(木) 16:21:52.50ID:FdbC2U6h >当時は意味があったのかも知れないけど
紙の排出に使われてたぞ
紙の排出に使われてたぞ
446デフォルトの名無しさん
2018/06/28(木) 18:55:39.46ID:wMlREDKw447デフォルトの名無しさん
2018/06/28(木) 23:48:15.68ID:d1dmwFto UTF-8Nというのは
だれかがテキトーにつけたUnicodeのエンコードの名前
先に結論をいうとUTF-8NはBOMついてないUTF-8ということらしいからな
さらいえばUTF-8にBOMつける意味はほとんどない
とりあえず概要だけ書いといてやろう
BOMというのは、符号単位のオクテットの並びが
リトルエディアンかビッグエンディアンか識別するためにファイルの先頭にマークされる
ちなみにそれぞれのエンコードの符号単位はこんな感じなる
UTF-8:1つのオクテット
UTF-16:2つのオクテット
UTF-32:4つのオクテット
つまり、UTF-8ではそんなマークつけても意味がない
オクテットが1つしかないからな、並びなんか関係ない
2つ以上の場合、オクテットの順序がリトルエディアンかビッグエンディアンかで
数値の表現のされかたが変わる
CISC系のチップだと数値の表現はリトルエンディアンが多い
RISC系のチップだと数値の表現はビッグエンディアンが多い
つまり、CISC系のチップでリトルエディアンで保存されたファイルなら
エンディアンを気にせずにファイルに保存された数値をそのまま読むことができる
しかしビッグエンディアンなら一旦オクテットの並びを逆転させてから
数値を読みとる必要がある
RISC系のチップならその逆になる
分かった?
だれかがテキトーにつけたUnicodeのエンコードの名前
先に結論をいうとUTF-8NはBOMついてないUTF-8ということらしいからな
さらいえばUTF-8にBOMつける意味はほとんどない
とりあえず概要だけ書いといてやろう
BOMというのは、符号単位のオクテットの並びが
リトルエディアンかビッグエンディアンか識別するためにファイルの先頭にマークされる
ちなみにそれぞれのエンコードの符号単位はこんな感じなる
UTF-8:1つのオクテット
UTF-16:2つのオクテット
UTF-32:4つのオクテット
つまり、UTF-8ではそんなマークつけても意味がない
オクテットが1つしかないからな、並びなんか関係ない
2つ以上の場合、オクテットの順序がリトルエディアンかビッグエンディアンかで
数値の表現のされかたが変わる
CISC系のチップだと数値の表現はリトルエンディアンが多い
RISC系のチップだと数値の表現はビッグエンディアンが多い
つまり、CISC系のチップでリトルエディアンで保存されたファイルなら
エンディアンを気にせずにファイルに保存された数値をそのまま読むことができる
しかしビッグエンディアンなら一旦オクテットの並びを逆転させてから
数値を読みとる必要がある
RISC系のチップならその逆になる
分かった?
448デフォルトの名無しさん
2018/06/29(金) 03:04:36.82ID:8Q0GtZXS わかんない。
なんで他のシステムで読む可能性のあるファイルなのに
フォーマットを決めないの?
なんで他のシステムで読む可能性のあるファイルなのに
フォーマットを決めないの?
449デフォルトの名無しさん
2018/06/29(金) 09:04:53.35ID:iuHQPsKC >>443
> 行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
例えば、ゴルフボールで次のようにタイプすることを考えてみる。(□はスペース)
□□□□□□□AA
□□□□□□□AA
□□□□□□□AA「CRの無いLF」「BS」「BS」AA
と打つと、行頭に戻すよりも速く打てると思うが。
> 行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
例えば、ゴルフボールで次のようにタイプすることを考えてみる。(□はスペース)
□□□□□□□AA
□□□□□□□AA
□□□□□□□AA「CRの無いLF」「BS」「BS」AA
と打つと、行頭に戻すよりも速く打てると思うが。
450デフォルトの名無しさん
2018/06/29(金) 09:11:34.75ID:pXG1OaDl CISC RISC って今は無意味だしエンディアンとは関係ない
関係あると思うのは知ってるCPUが少ないだけかと
あと上で重ね打ちが昔の話みたいに言ってるけど
man使ったことないの?
端末によるけどたいていアンダーラインがつくよ
関係あると思うのは知ってるCPUが少ないだけかと
あと上で重ね打ちが昔の話みたいに言ってるけど
man使ったことないの?
端末によるけどたいていアンダーラインがつくよ
451デフォルトの名無しさん
2018/06/29(金) 09:17:15.33ID:pXG1OaDl452デフォルトの名無しさん
2018/06/29(金) 11:08:54.85ID:95WXFXv0 BOMの有無でCSVをexcelに読ませる際に文字化けするんだよね
453デフォルトの名無しさん
2018/06/29(金) 11:50:23.53ID:Uc21CWyX そういう仕様だったから、ってのは何の考察にもなってない。
人類が争いをやめないのはそういう仕様になってるから。
人類が争いをやめないのはそういう仕様になってるから。
454デフォルトの名無しさん
2018/06/29(金) 15:14:45.43ID:C6H9lGIq >>450
>(manでは)端末によるけどたいていアンダーラインがつくよ
manでアンダーラインがつかないと言っている人はいないし、昔は
>バックスペースで1文字分戻ってアンダーラインを打ったり
>文字を二度打ちして太字にしたりしてた
というのとは別の話だろ
>(manでは)端末によるけどたいていアンダーラインがつくよ
manでアンダーラインがつかないと言っている人はいないし、昔は
>バックスペースで1文字分戻ってアンダーラインを打ったり
>文字を二度打ちして太字にしたりしてた
というのとは別の話だろ
455デフォルトの名無しさん
2018/06/29(金) 15:35:26.60ID:C6H9lGIq456デフォルトの名無しさん
2018/06/29(金) 16:16:27.86ID:kXqQNYVA457デフォルトの名無しさん
2018/06/29(金) 22:19:47.60ID:jsqIPRMd ちょっと関係ないがGoogle翻訳では改行は%0Aだね。
HTTP関連の改行コードはCRLFが多いと思うんだけど,珍しい。
HTTP関連の改行コードはCRLFが多いと思うんだけど,珍しい。
458デフォルトの名無しさん
2018/06/29(金) 22:36:32.85ID:8Q0GtZXS そこはhttp関係ないじゃん
459デフォルトの名無しさん
2018/06/29(金) 23:08:44.45ID:sSTEuPuw むしろフォーマットがきまってる
リトルエンディアンの形式でもいいし
ビッグエンディアンの形式でもいいというフォーマットだからな
構成システムがリトルエンディアンの計算機が多い場合、リトルエンディアンで扱う方が有利
当然、構成システムがビッグエンディアンの計算機が多い場合、ビッグエンディアンで扱う方が有利になる
後処理の計算機のリソース消費量を減らすために先にいちいち毎回エンディアン変換するのもムダだしな
ちなみにネットワークのプロトコルの標準では歴史的な事情があって
ほぼ暗黙でビッグエンディアンになってる
ドキュメントにエンディアンが記載されてなければ
ビッグエンディアンとみなしてほぼ問題ない
リトルエンディアンの形式でもいいし
ビッグエンディアンの形式でもいいというフォーマットだからな
構成システムがリトルエンディアンの計算機が多い場合、リトルエンディアンで扱う方が有利
当然、構成システムがビッグエンディアンの計算機が多い場合、ビッグエンディアンで扱う方が有利になる
後処理の計算機のリソース消費量を減らすために先にいちいち毎回エンディアン変換するのもムダだしな
ちなみにネットワークのプロトコルの標準では歴史的な事情があって
ほぼ暗黙でビッグエンディアンになってる
ドキュメントにエンディアンが記載されてなければ
ビッグエンディアンとみなしてほぼ問題ない
460デフォルトの名無しさん
2018/06/29(金) 23:10:02.53ID:sSTEuPuw ちなみにキミラみたいな貧乏人が使ってるPCは
ほとんどリトルエンディアンになる
ほとんどリトルエンディアンになる
461デフォルトの名無しさん
2018/06/30(土) 00:16:14.33ID:I+9paw5R やっぱり今時半角カタカナ使う人にはアレな人が多いのか
462デフォルトの名無しさん
2018/06/30(土) 01:04:57.77ID:2NGdD93t463デフォルトの名無しさん
2018/06/30(土) 03:46:45.67ID:O2H7A6pY464デフォルトの名無しさん
2018/06/30(土) 04:38:43.11ID:8S9cJyih やっぱりユニコードが諸悪の根源
あれが入って来てからコンピュータが扱いづらくなった
日本はSJISに統一しよう
あれが入って来てからコンピュータが扱いづらくなった
日本はSJISに統一しよう
465デフォルトの名無しさん
2018/06/30(土) 06:04:05.89ID:tYfB6W3t Unicode程度でコンピューターを扱いずらくなる脳味噌って……同情するわ。
466デフォルトの名無しさん
2018/06/30(土) 13:06:02.67ID:QAvD/WKt エンディアン関係ないUTF-8が一番良いな
467デフォルトの名無しさん
2018/06/30(土) 13:32:27.92ID:cCXC0XvW UTF-8 はバイト列を見て文字がわかりにくいのが難点
468デフォルトの名無しさん
2018/06/30(土) 13:49:23.03ID:O2H7A6pY >>467
なんで?
なんで?
>>464
最初から 32 ビットにしなかったのが問題でしたね
最初から 32 ビットにしなかったのが問題でしたね
470デフォルトの名無しさん
2018/06/30(土) 18:58:11.39ID:cCXC0XvW >>468
うーん、いやあ、あらためて考えると単に分かりづらいと思い込んでる
だけだったかも。JISX0208 の文字って3バイトになるでしょ。
あの 3バイトずつになるのがどうも慣れないだけだった。467 は撤回するよ
うーん、いやあ、あらためて考えると単に分かりづらいと思い込んでる
だけだったかも。JISX0208 の文字って3バイトになるでしょ。
あの 3バイトずつになるのがどうも慣れないだけだった。467 は撤回するよ
471デフォルトの名無しさん
2018/06/30(土) 20:27:41.69ID:ozTCpxdq BOMでエンディアンが規定できるからな
そのようにフォーマットできまってる
数値の読みとりかたも一意に定まる
どっちでもいいというワケではない
バカはホント困るわぁ
つまり
リトルエンディアンで2つ以上のオクテットがあるのに
先頭にBOM入れないヤツはゴミクズといえる
Javaのバイトコードに CAFE BABE が入ってないぐらいお話にならない
ビッグエンディアンならBOMなくてもオレはよいとしようと考える
そのようにフォーマットできまってる
数値の読みとりかたも一意に定まる
どっちでもいいというワケではない
バカはホント困るわぁ
つまり
リトルエンディアンで2つ以上のオクテットがあるのに
先頭にBOM入れないヤツはゴミクズといえる
Javaのバイトコードに CAFE BABE が入ってないぐらいお話にならない
ビッグエンディアンならBOMなくてもオレはよいとしようと考える
472デフォルトの名無しさん
2018/06/30(土) 22:43:16.16ID:2NGdD93t 半角カタカナは目に入ってこないなw
473デフォルトの名無しさん
2018/06/30(土) 23:05:58.78ID:8S9cJyih 恐ろしいのは、PCを使う一般人はユニコードとかBOMとか全く知らないこと
IT技術とIT利用者のレベルのギャップがいつかデカい事件を起こすだろう
PC社会は薄氷の上を歩くような危うさの中に成り立っている
IT技術とIT利用者のレベルのギャップがいつかデカい事件を起こすだろう
PC社会は薄氷の上を歩くような危うさの中に成り立っている
474デフォルトの名無しさん
2018/06/30(土) 23:20:50.17ID:0vzJToCT 未だに半角とか全角を使用者に意識させるのが残念でならない
カタカナなんて文字としては一種類なんだから機械的に変換してしまうのが当たり前になって良さそうなのに
カタカナなんて文字としては一種類なんだから機械的に変換してしまうのが当たり前になって良さそうなのに
475デフォルトの名無しさん
2018/07/01(日) 15:37:44.32ID:ep584YMH 2ちゃんがSJISオンリーってのがそもそもはよなおせ
476デフォルトの名無しさん
2018/07/01(日) 15:50:52.13ID:3SrV2o5x sjisオンリー❓🤔
477デフォルトの名無しさん
2018/07/01(日) 16:00:26.27ID:omYv90Gk478デフォルトの名無しさん
2018/07/01(日) 18:18:14.73ID:EnuoS7Gy Unicodeのクソなところは、既存のコード体系を無視してるところだよな。
まさに欧米人のやり口そのもの。
まさに欧米人のやり口そのもの。
479デフォルトの名無しさん
2018/07/02(月) 03:00:52.60ID:EL6wSxah たとえば?
480デフォルトの名無しさん
2018/07/02(月) 08:27:03.72ID:FZsTYqY7 Shift-JISが発音区別符号のついたラテン文字などをサポートしていればよかったのに。
481デフォルトの名無しさん
2018/07/03(火) 09:01:30.75ID:IDUMbXdY482デフォルトの名無しさん
2018/07/03(火) 14:32:34.20ID:R6pmKHtn483デフォルトの名無しさん
2018/07/03(火) 14:34:40.85ID:gQF2QJmD SJISは廃用で
484デフォルトの名無しさん
2018/07/03(火) 14:55:13.29ID:pQbF/VH/ はいよっ!
485デフォルトの名無しさん
2018/07/04(水) 03:13:37.83ID:FxllvN6o >>482
ビット立てながら先頭から見ればいいだけじゃん?
ビット立てながら先頭から見ればいいだけじゃん?
486デフォルトの名無しさん
2018/07/04(水) 17:14:03.55ID:LFQ4ypq9 うーん
487デフォルトの名無しさん
2018/07/04(水) 21:57:50.06ID:gFgZc5FG KZD
488デフォルトの名無しさん
2018/07/04(水) 23:49:15.94ID:s7W39adb 昔、Unicodeもない時代に全文検索エンジン作ったことがあるが
インデックス作るのにもマッチング用に符号圧縮したデータ作るのにも
設計がめんどいわ処理時間がかかるわだろうから
Shift_JISデータから16bitのデータに一旦変換してからそういったデータを作成するようにしてたわ
要件が検索漏れゼロ、ノイズゼロ、なおかつメディアは超トロイCD-ROMという
ありえない滅茶苦茶な内容だったからな
インデクサは大富豪な設計でないとやってられなかった
インデックス作成にリアルタイム性が要求されなかったからまだ救いがあったともいえる
その全文検索エンジンはインデックスを大きくすればするほどインデックスが大きくなるかわりに
最悪のケースの速度が速くなるという仕様にした(最低限必要な性能の要求水準に応えるため)
インデックスを大きくするということはインデックスを作るのに当然時間がかかるということになる
いまはそれもとてつもなくデータが増えてDVDになってる
インデックスもものすごい大きくなってる
で、その最悪のケースというのは、
符号圧縮されたデータをマッチングする回数が増えることを意味する
マッチングの条件はマッチングキーワードから生成するインデックスに含まれる符号圧縮された符号の組み合わせになる
そのマッチングアルゴリズムにBMHを使うことになる
インデックス作るのにもマッチング用に符号圧縮したデータ作るのにも
設計がめんどいわ処理時間がかかるわだろうから
Shift_JISデータから16bitのデータに一旦変換してからそういったデータを作成するようにしてたわ
要件が検索漏れゼロ、ノイズゼロ、なおかつメディアは超トロイCD-ROMという
ありえない滅茶苦茶な内容だったからな
インデクサは大富豪な設計でないとやってられなかった
インデックス作成にリアルタイム性が要求されなかったからまだ救いがあったともいえる
その全文検索エンジンはインデックスを大きくすればするほどインデックスが大きくなるかわりに
最悪のケースの速度が速くなるという仕様にした(最低限必要な性能の要求水準に応えるため)
インデックスを大きくするということはインデックスを作るのに当然時間がかかるということになる
いまはそれもとてつもなくデータが増えてDVDになってる
インデックスもものすごい大きくなってる
で、その最悪のケースというのは、
符号圧縮されたデータをマッチングする回数が増えることを意味する
マッチングの条件はマッチングキーワードから生成するインデックスに含まれる符号圧縮された符号の組み合わせになる
そのマッチングアルゴリズムにBMHを使うことになる
489デフォルトの名無しさん
2018/07/04(水) 23:50:33.59ID:s7W39adb で、このBMHというのは文字列マッチングで非常に有効なアルゴリズムといえる
しかしShift_JISでは使えない
ユニコードならそのまんま使える
順方向からの文字列マッチングですらShift_JISでは
こういった高速なマッチングアルゴリズムが使えない
いかにShift_JISがウンコかよくわかる典型的な例といっていい
しかしShift_JISでは使えない
ユニコードならそのまんま使える
順方向からの文字列マッチングですらShift_JISでは
こういった高速なマッチングアルゴリズムが使えない
いかにShift_JISがウンコかよくわかる典型的な例といっていい
490デフォルトの名無しさん
2018/07/05(木) 01:32:31.02ID:Iw1yLrzA491デフォルトの名無しさん
2018/07/05(木) 01:51:36.04ID:T0L/NWDK ただし抜けやすくなる
492デフォルトの名無しさん
2018/07/05(木) 02:11:26.21ID:8UhFPcQc 半角カタカナを多用されるとCOBOLで作ったんじゃないかと思っちゃうね
493デフォルトの名無しさん
2018/07/05(木) 02:30:50.16ID:HIyPet1B 大発見じゃん
494デフォルトの名無しさん
2018/07/05(木) 18:37:34.34ID:0T2GdzcY 半角カナもそうだけど、全角英数も大概だよなぁ
経緯的なもんだろうけど、
未だに『住所はすべて全角で』みたいなWebフォーム有ったりするし
経緯的なもんだろうけど、
未だに『住所はすべて全角で』みたいなWebフォーム有ったりするし
495デフォルトの名無しさん
2018/07/05(木) 19:38:22.34ID:CqUNBSEq Unicodeって日本を優遇しすぎてない? そう思うのは日本人の奢りなのかな。
例えば上で挙げられてる絵文字や全角英数、半角片仮名だって日本由来だし、
「CJK互換文字」と謳いつつ、キロメートルを一文字幅に短縮したやつとかも全部日本のJISコードとの互換性を保つために導入されてる訳じゃん。
そういうのってどうなのかなぁ。
自分は嬉しい(過去の、Shift-JISでエンコードされた文書が情報の欠損なく読めるから)んだけどね、もちろん。
例えば上で挙げられてる絵文字や全角英数、半角片仮名だって日本由来だし、
「CJK互換文字」と謳いつつ、キロメートルを一文字幅に短縮したやつとかも全部日本のJISコードとの互換性を保つために導入されてる訳じゃん。
そういうのってどうなのかなぁ。
自分は嬉しい(過去の、Shift-JISでエンコードされた文書が情報の欠損なく読めるから)んだけどね、もちろん。
496デフォルトの名無しさん
2018/07/05(木) 20:37:53.33ID:cHUpj8OH >>495
線文字Aとか楔形文字拡張とか見ても同じこと言えるか?
線文字Aとか楔形文字拡張とか見ても同じこと言えるか?
497デフォルトの名無しさん
2018/07/05(木) 21:16:32.44ID:CqUNBSEq >>496
でもあれは互換性もクソもないじゃん
でもあれは互換性もクソもないじゃん
498デフォルトの名無しさん
2018/07/05(木) 22:49:22.73ID:cHUpj8OH 誰にも読めない、使えない、未解読の古代文字とか登録してるくらいだから、現代でも使用可能な文字なら余裕って話だ。
499デフォルトの名無しさん
2018/07/05(木) 23:18:38.72ID:0kDXGIdf だめか
𒀑
𒄦
くさび
𒀑
𒄦
くさび
500デフォルトの名無しさん
2018/07/06(金) 07:29:45.69ID:3U2Ta28u ~(元号を一文字化したもの)とかあるからな
申請すれば何でも通るんじゃねーの
申請すれば何でも通るんじゃねーの
501デフォルトの名無しさん
2018/07/06(金) 08:24:58.10ID:QJllJwz8 申請する権利のある人ならな。
大手OSメーカー、国家規格代表、ごく一部の文字専門家。
大手OSメーカー、国家規格代表、ごく一部の文字専門家。
502デフォルトの名無しさん
2018/07/06(金) 08:47:24.31ID:IGjSb2yt 潤A~などは、昔の(日本の)文字コードとの互換性を取るために
残しているだけ。だから、次の元号の合わせ文字は通らない。
残しているだけ。だから、次の元号の合わせ文字は通らない。
503デフォルトの名無しさん
2018/07/06(金) 10:05:30.92ID:odzQpd8G 文部の沙汰も金私大
504デフォルトの名無しさん
2018/07/06(金) 19:02:02.70ID:3U2Ta28u >>502
もうコードの場所を確保してあるってMSの元号対応ブログで言ってたよ
もうコードの場所を確保してあるってMSの元号対応ブログで言ってたよ
505デフォルトの名無しさん
2018/07/06(金) 22:30:52.61ID:p79Hvr/2506デフォルトの名無しさん
2018/07/07(土) 01:28:54.42ID:kLxolQc6 空いてるとこにテキトーにいれてるだけやん
文字コードが連続してないし
ひどいマッピングされてるわ
文字コードが連続してないし
ひどいマッピングされてるわ
507デフォルトの名無しさん
2018/07/07(土) 10:47:15.09ID:OQyJYPpl 元号は、これからもどんどん増えてゆくんだから、Unicodeに
「日本元号面」を作って、そこに入れるようにしてほしい。
「日本元号面」を作って、そこに入れるようにしてほしい。
508デフォルトの名無しさん
2018/07/07(土) 11:50:18.74ID:kLxolQc6 ちなみに先に書いた全文検索エンジンでは
アイウエオもアイウエオも
ガギグゲゴもガギグゲゴも
12345も12345も
abcdeもabcdeも
同じ文字コードとして扱ってる
つまりどっちでキーワード書いても当たる
見た目(つまりグリフ)が違うだけで同じだからな
しかし明治大正昭和平成を合紫順~までは
やってない
すでにいろんなもんでその全文検索エンジンは使われてるが
コレで文句がきたことはない
つまりだれも気にしてない
アイウエオもアイウエオも
ガギグゲゴもガギグゲゴも
12345も12345も
abcdeもabcdeも
同じ文字コードとして扱ってる
つまりどっちでキーワード書いても当たる
見た目(つまりグリフ)が違うだけで同じだからな
しかし明治大正昭和平成を合紫順~までは
やってない
すでにいろんなもんでその全文検索エンジンは使われてるが
コレで文句がきたことはない
つまりだれも気にしてない
509デフォルトの名無しさん
2018/07/07(土) 13:23:15.59ID:WVErtcKw カ゚キ゚ク゚ケ゚コ゚はどうなるんだ
510デフォルトの名無しさん
2018/07/07(土) 13:49:40.16ID:kLxolQc6 こんな感じの内容からインデックスやマッチング用のデータが作成される
ガギグゲゴ ガギグゲゴ ⇒ カ゛キ゛ク゛ケ゛コ゛
カ゚キ゚ク゚ケ゚コ゚ ⇒ カ゜キ゜ク゜ケ゜コ゜
つまりインデックスやマッチング用のデータを作る前に前処理で一気に痴漢することになる
で、キーワードをガギグゲゴやガギギゲゴやカ゛キ゛ク゛ケ゛コ゛にすると
カ゛キ゛ク゛ケ゛コ゛で検索することになる
つまりこの全文検索エンジンは濁音も半濁音も検索できる超優れものといえるのだ
ガギグゲゴ ガギグゲゴ ⇒ カ゛キ゛ク゛ケ゛コ゛
カ゚キ゚ク゚ケ゚コ゚ ⇒ カ゜キ゜ク゜ケ゜コ゜
つまりインデックスやマッチング用のデータを作る前に前処理で一気に痴漢することになる
で、キーワードをガギグゲゴやガギギゲゴやカ゛キ゛ク゛ケ゛コ゛にすると
カ゛キ゛ク゛ケ゛コ゛で検索することになる
つまりこの全文検索エンジンは濁音も半濁音も検索できる超優れものといえるのだ
511デフォルトの名無しさん
2018/07/07(土) 14:06:53.21ID:IMiijYtR 痴漢アカン
512デフォルトの名無しさん
2018/07/07(土) 14:25:13.00ID:WVErtcKw 俺はそういうのを考えるのが面倒だからUNICODE正規化だけしてる
おかげで平成と~もちゃんと検索でヒットする
おかげで平成と~もちゃんと検索でヒットする
513デフォルトの名無しさん
2018/07/07(土) 15:16:01.20ID:kLxolQc6 ちなみに客ごとに置換辞書を作ってる
客ごとに要望が違うからな
客によってはいろんな要望をいってくる客もいる
その要望に応えるのも仕事だからな
で、そのなかに合紫順~を置換した例はない
全角にマッピングされてるasciiや半角カナの部分は
コレについてほぼ間違いなくみな同じ結論になる
それ以外で異なる特殊な部分は結構ある
文字コードでシノニムの部分もあれば、それ以外でシノニムにしたい部分もあったりする
それは客の業務に依存する部分になるからな
客ごとに要望が違うからな
客によってはいろんな要望をいってくる客もいる
その要望に応えるのも仕事だからな
で、そのなかに合紫順~を置換した例はない
全角にマッピングされてるasciiや半角カナの部分は
コレについてほぼ間違いなくみな同じ結論になる
それ以外で異なる特殊な部分は結構ある
文字コードでシノニムの部分もあれば、それ以外でシノニムにしたい部分もあったりする
それは客の業務に依存する部分になるからな
514デフォルトの名無しさん
2018/07/07(土) 15:17:11.21ID:kLxolQc6 考えるのはキミじゃないワケ
キミはただのドカタなワケ
わかる?
客と良好な関係を保つには
できるだけ、それは仕様ですは避けないといけない
そしてそれを低いコストで実現できないといけない
なにをしたいのかはっきりといってる部分については
こっちから客の業務についてどうこういう必要も理由もないし
こんなしょうもないことを実現するためにめっちゃカネかかりますよとかいえるワケもない
そういうことだ
キミはただのドカタなワケ
わかる?
客と良好な関係を保つには
できるだけ、それは仕様ですは避けないといけない
そしてそれを低いコストで実現できないといけない
なにをしたいのかはっきりといってる部分については
こっちから客の業務についてどうこういう必要も理由もないし
こんなしょうもないことを実現するためにめっちゃカネかかりますよとかいえるワケもない
そういうことだ
515デフォルトの名無しさん
2018/07/07(土) 15:56:51.92ID:hSg2x2AH516デフォルトの名無しさん
2018/07/07(土) 17:04:10.09ID:i11AJyJz 絵文字の無茶な合成が有りなんだから
平と成をzwjでくっつけたら~になるとかでいいのに
平と成をzwjでくっつけたら~になるとかでいいのに
517デフォルトの名無しさん
2018/07/07(土) 20:17:18.16ID:Ty8z3s6n 魚 + ZWJ + 里 = 鯉
とか収拾がつかなくなる
とか収拾がつかなくなる
518デフォルトの名無しさん
2018/07/07(土) 20:47:01.42ID:hSg2x2AH 光+宙=ピカチュウとか?
519デフォルトの名無しさん
2018/07/07(土) 21:11:51.93ID:URcWOMtI 次の元号組み文字はCP932やJISX0213には入るのかな?
520デフォルトの名無しさん
2018/07/07(土) 22:51:54.27ID:AwQTnpwn 月+光=胱とか
実際に胱を人名に使えるようにしてほしいという要望があるそうだ
実際に胱を人名に使えるようにしてほしいという要望があるそうだ
521デフォルトの名無しさん
2018/07/08(日) 00:07:58.74ID:ib3y3idC 自力でマッピングするnkfの遅さ。文化遺産だから保守され続けるのだろうけど。
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 中国国営メディア「沖縄は日本ではない」… ★5 [BFU★]
- 高市政権にパイプ役不在…日中高まる緊張 公明党の連立離脱影響、自民内にも懸念「自分でまいた種は自分で刈り取ってもらわないと」★2 [ぐれ★]
- 【速報】 高市政権、「日本版DOGE」を立ち上げ 米国で歳出削減をした「政府効率化省(DOGE)」になぞらえたもの [お断り★]
- 【速報】 日経平均の下落率3%超す、財政懸念で長期金利上昇 [お断り★]
- 台湾声明 「台湾は独立した主権国家、中国は台湾を統治したことがなく、中国は口出しする権利ない」 中国が高市首相に抗議で ★7 [お断り★]
- 日本が「世界で最も魅力的な国」1位に!✨「魅力的な都市」では東京が2位 「魅力的な地域」は北海道が7位に [煮卵★]
- 高市政権「中国さん、日本はいつでも対話に応じるで」 [834922174]
- 吉村はん「高市さんは発言を撤回する必要ないですよ。中国の大阪総領事が謝罪すべき」 [256556981]
- 中国「高市が謝罪撤回しないとこれ全部なくなるけどどうする?」 [931948549]
- 日経平均、49000円割れ 国賊高市を許すな [402859164]
- 東浩紀「日本はいままさに駆け引きをしている。」高市有事にピシャリ [834922174]
- 【高市経済】日経平均マイナス1600円!、金利1.76%!ドル円155円!世界恐慌へ [219241683]
