プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
探検
文字コード総合スレ Part11
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2018/01/22(月) 22:58:23.45ID:UK/uqEp5416デフォルトの名無しさん
2018/06/21(木) 01:34:17.28ID:M+oxnni+417デフォルトの名無しさん
2018/06/21(木) 01:45:44.30ID:9yZQgWTf じゃあラインプリンターにもキャリッジあるの?
https://www.e-bridge.jp/eb/tcontents/yasasikunai-p/images/imageA001.jpg
https://www.e-bridge.jp/eb/tcontents/yasasikunai-p/images/imageA001.jpg
418デフォルトの名無しさん
2018/06/21(木) 02:17:29.23ID:vn+zRuHD ラインまるごと打つからラインプリンターなんだよねw
419デフォルトの名無しさん
2018/06/21(木) 09:07:52.61ID:y5k3a+mj MACみたいにCRだけっていうのは病気だけど
CR+LFが来たら常にCR無視しておけばいいし
自分で出力するときはLFだけ出力しておけばいい
それだけ
CR+LFが来たら常にCR無視しておけばいいし
自分で出力するときはLFだけ出力しておけばいい
それだけ
420デフォルトの名無しさん
2018/06/21(木) 09:41:35.70ID:CR9+5isI Why is the line terminator CR+LF?
https://blogs.msdn.microsoft.com/oldnewthing/20040318-00/?p=40193
If you go to the various internet protocol documents, such as RFC 0821 (SMTP), RFC 1939 (POP), RFC 2060 (IMAP), or RFC 2616 (HTTP),
you'll see that they all specify CR+LF as the line termination sequence.
So the the real question is not "Why do CP/M, MS-DOS, and Win32 use CR+LF as the line terminator?"
but rather "Why did other people choose to differ from these standards documents and use some other line terminator?"
https://blogs.msdn.microsoft.com/oldnewthing/20040318-00/?p=40193
If you go to the various internet protocol documents, such as RFC 0821 (SMTP), RFC 1939 (POP), RFC 2060 (IMAP), or RFC 2616 (HTTP),
you'll see that they all specify CR+LF as the line termination sequence.
So the the real question is not "Why do CP/M, MS-DOS, and Win32 use CR+LF as the line terminator?"
but rather "Why did other people choose to differ from these standards documents and use some other line terminator?"
421デフォルトの名無しさん
2018/06/22(金) 13:23:16.23ID:zvOmzJZB そのブログは CR + LF を正当化してるけど、テキストファイルの改行は
単に行のデリミタであって、カーソルの移動を意味してるわけじゃないと思うんだよね
単に行のデリミタであって、カーソルの移動を意味してるわけじゃないと思うんだよね
422デフォルトの名無しさん
2018/06/22(金) 15:59:28.46ID:MYEvMa8B International Business Machines
423デフォルトの名無しさん
2018/06/22(金) 21:46:22.33ID:Lyh+6zOM HAL 9000
"I'm sorry, Dave, I'm afraid I can't do that."
"I'm sorry, Dave, I'm afraid I can't do that."
424デフォルトの名無しさん
2018/06/26(火) 16:07:00.46ID:Jp9iFqVj >>421
だよな。テレタイプじゃないんだから10か13をLE(Line End)にすればいいんだ
だよな。テレタイプじゃないんだから10か13をLE(Line End)にすればいいんだ
425デフォルトの名無しさん
2018/06/26(火) 22:23:33.42ID:PAZ2qH9Y 一方でEBCDICはCRやLFとは別にNLを定義した。
426デフォルトの名無しさん
2018/06/27(水) 00:01:18.11ID:4lF2I/sY コレが正解
https://i.stack.imgur.com/e4xm6.jpg
つまり
carriage returnは行頭に復帰
line feedは行送り
CRだけなら何度も同じ行が上書きされる(行送りされない)
LFだけなら例えば3行だとこうなる
XXXXXXXX
XXXXXXXX
XXXXXXXX
https://i.stack.imgur.com/e4xm6.jpg
つまり
carriage returnは行頭に復帰
line feedは行送り
CRだけなら何度も同じ行が上書きされる(行送りされない)
LFだけなら例えば3行だとこうなる
XXXXXXXX
XXXXXXXX
XXXXXXXX
427デフォルトの名無しさん
2018/06/27(水) 00:23:59.29ID:Xb4utxw7 ⮠じゃなくて⮦
428デフォルトの名無しさん
2018/06/27(水) 00:37:35.67ID:BTQKl7xc429デフォルトの名無しさん
2018/06/27(水) 00:53:00.34ID:4lF2I/sY そんなこといいだしたら
デリミタなんかなんでもいいことになる
ただの文字コードの羅列だからな
CRである必要もないしLFである必要もない
そもそもキミラはアホなこといってるワケ
項目のデリミタにカンマつかったり水平タブ使ったりする
行のデリミタだってなんでもいい
バカはホント困るわぁ
デリミタなんかなんでもいいことになる
ただの文字コードの羅列だからな
CRである必要もないしLFである必要もない
そもそもキミラはアホなこといってるワケ
項目のデリミタにカンマつかったり水平タブ使ったりする
行のデリミタだってなんでもいい
バカはホント困るわぁ
430デフォルトの名無しさん
2018/06/27(水) 02:30:43.48ID:ulOW8GiO >>429
だから決めだけの問題だから何でもいい。
ASCIIという文字コードの規約の問題。
実際にEBCDICは CR でも LF でもない制御コードを別途改行コードとして用意した。
ASCII については規格の策定時から LF を押す国際派(ISO)と CR+LF を押す国内派(ANS)が対立していて一意に決まってない。
だから決めだけの問題だから何でもいい。
ASCIIという文字コードの規約の問題。
実際にEBCDICは CR でも LF でもない制御コードを別途改行コードとして用意した。
ASCII については規格の策定時から LF を押す国際派(ISO)と CR+LF を押す国内派(ANS)が対立していて一意に決まってない。
431デフォルトの名無しさん
2018/06/27(水) 09:37:29.05ID:5XsMHgY7 もともとテレタイプ前提の文字コードだからなあ
432デフォルトの名無しさん
2018/06/27(水) 15:41:13.36ID:2dfKv2YD 文字の話しろ
433デフォルトの名無しさん
2018/06/27(水) 15:48:44.41ID:EKUkk/oX いや文字コードの話するスレだろ
434デフォルトの名無しさん
2018/06/27(水) 18:10:34.52ID:rSBeNI25 CR/LFは文字じゃないのか……(驚愕)
435デフォルトの名無しさん
2018/06/27(水) 21:08:46.77ID:ulOW8GiO 制御コードであって文字ではないな。
少なくともASCIIとUnicodeでは。
少なくともASCIIとUnicodeでは。
436デフォルトの名無しさん
2018/06/27(水) 22:13:49.89ID:5OUSIXAr 制御文字のコードです
437デフォルトの名無しさん
2018/06/27(水) 22:58:53.48ID:+kEwaWuV >>420
その後に書いてある「I'm told that the ASCII committee changed the name of character 0x0A to "newline" around 1996, so the confusion level has been raised even higher.」
ってどういうことなんだろう?
ASCII委員会が1996年頃に0x0Aの名前をnewlineに変更して混乱が深まった?
ASCIIって1986年が最終改訂じゃないの?
その後に書いてある「I'm told that the ASCII committee changed the name of character 0x0A to "newline" around 1996, so the confusion level has been raised even higher.」
ってどういうことなんだろう?
ASCII委員会が1996年頃に0x0Aの名前をnewlineに変更して混乱が深まった?
ASCIIって1986年が最終改訂じゃないの?
438デフォルトの名無しさん
2018/06/28(木) 09:21:41.88ID:iSaREpik コンピュータの出力装置がゴルフボールの電動タイプライターだった時代、
例えば「アンダーライン入りの文字」を打つ時は、普通に文字を打って、
「ラインフィードの無いキャリッジリターン」をやって、
アンダーラインだけを打っていたのだと思う。
すると、キャリッジリターンには、ラインフィードが付く場合と付かない
場合があり、両者は明確に区別できなければならないはず。
ASCIIコードが制定された時代から考えると、改行コードが「CR/LF」
になったのは、そうゆう趣旨かな?と思う。
例えば「アンダーライン入りの文字」を打つ時は、普通に文字を打って、
「ラインフィードの無いキャリッジリターン」をやって、
アンダーラインだけを打っていたのだと思う。
すると、キャリッジリターンには、ラインフィードが付く場合と付かない
場合があり、両者は明確に区別できなければならないはず。
ASCIIコードが制定された時代から考えると、改行コードが「CR/LF」
になったのは、そうゆう趣旨かな?と思う。
439デフォルトの名無しさん
2018/06/28(木) 09:47:22.60ID:/fqEtI/z >>438
キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは?
バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ
キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは?
バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ
440デフォルトの名無しさん
2018/06/28(木) 11:06:58.11ID:5Es+lqIV BOMとかUTF-8Nってなんですか?
441デフォルトの名無しさん
2018/06/28(木) 12:37:34.87ID:iSaREpik >>439
なるほど。ありがとう。
なるほど。ありがとう。
442デフォルトの名無しさん
2018/06/28(木) 12:46:09.81ID:4/XCwkvc unicodeになって重ね打ち的な概念復活してきてね?
443デフォルトの名無しさん
2018/06/28(木) 15:12:27.72ID:LwHbkD+y >>439
重ね打ちをしたくないところはスペースを使えばいい
>コンピュータの出力装置がゴルフボールの電動タイプライターだった時代
スペースは何も印字せずに印字位置を一文字分進めるのであって
その位置の文字を空白で置き換えたり
その位置に空白を挿入するのではなかったのだから
昔読んだ本に、重ね打ちのためにバックスペースを使っている文書を
バックスペースを使えないプリンターでも重ね打ちできるように
変換するプログラムが載っていた
詳細は忘れたけど、CRとスペースを使うのだったと思う
>>438
それだと行頭に戻る機能だけをCRとして用意する理由にはなっても
行頭に戻る機能をLFに持たせない理由にはならないのではないか?
行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
重ね打ちをしたくないところはスペースを使えばいい
>コンピュータの出力装置がゴルフボールの電動タイプライターだった時代
スペースは何も印字せずに印字位置を一文字分進めるのであって
その位置の文字を空白で置き換えたり
その位置に空白を挿入するのではなかったのだから
昔読んだ本に、重ね打ちのためにバックスペースを使っている文書を
バックスペースを使えないプリンターでも重ね打ちできるように
変換するプログラムが載っていた
詳細は忘れたけど、CRとスペースを使うのだったと思う
>>438
それだと行頭に戻る機能だけをCRとして用意する理由にはなっても
行頭に戻る機能をLFに持たせない理由にはならないのではないか?
行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
444デフォルトの名無しさん
2018/06/28(木) 16:20:32.60ID:FdbC2U6h escシーケンスでも改行せずに行頭に戻したり出来たからな
445デフォルトの名無しさん
2018/06/28(木) 16:21:52.50ID:FdbC2U6h >当時は意味があったのかも知れないけど
紙の排出に使われてたぞ
紙の排出に使われてたぞ
446デフォルトの名無しさん
2018/06/28(木) 18:55:39.46ID:wMlREDKw447デフォルトの名無しさん
2018/06/28(木) 23:48:15.68ID:d1dmwFto UTF-8Nというのは
だれかがテキトーにつけたUnicodeのエンコードの名前
先に結論をいうとUTF-8NはBOMついてないUTF-8ということらしいからな
さらいえばUTF-8にBOMつける意味はほとんどない
とりあえず概要だけ書いといてやろう
BOMというのは、符号単位のオクテットの並びが
リトルエディアンかビッグエンディアンか識別するためにファイルの先頭にマークされる
ちなみにそれぞれのエンコードの符号単位はこんな感じなる
UTF-8:1つのオクテット
UTF-16:2つのオクテット
UTF-32:4つのオクテット
つまり、UTF-8ではそんなマークつけても意味がない
オクテットが1つしかないからな、並びなんか関係ない
2つ以上の場合、オクテットの順序がリトルエディアンかビッグエンディアンかで
数値の表現のされかたが変わる
CISC系のチップだと数値の表現はリトルエンディアンが多い
RISC系のチップだと数値の表現はビッグエンディアンが多い
つまり、CISC系のチップでリトルエディアンで保存されたファイルなら
エンディアンを気にせずにファイルに保存された数値をそのまま読むことができる
しかしビッグエンディアンなら一旦オクテットの並びを逆転させてから
数値を読みとる必要がある
RISC系のチップならその逆になる
分かった?
だれかがテキトーにつけたUnicodeのエンコードの名前
先に結論をいうとUTF-8NはBOMついてないUTF-8ということらしいからな
さらいえばUTF-8にBOMつける意味はほとんどない
とりあえず概要だけ書いといてやろう
BOMというのは、符号単位のオクテットの並びが
リトルエディアンかビッグエンディアンか識別するためにファイルの先頭にマークされる
ちなみにそれぞれのエンコードの符号単位はこんな感じなる
UTF-8:1つのオクテット
UTF-16:2つのオクテット
UTF-32:4つのオクテット
つまり、UTF-8ではそんなマークつけても意味がない
オクテットが1つしかないからな、並びなんか関係ない
2つ以上の場合、オクテットの順序がリトルエディアンかビッグエンディアンかで
数値の表現のされかたが変わる
CISC系のチップだと数値の表現はリトルエンディアンが多い
RISC系のチップだと数値の表現はビッグエンディアンが多い
つまり、CISC系のチップでリトルエディアンで保存されたファイルなら
エンディアンを気にせずにファイルに保存された数値をそのまま読むことができる
しかしビッグエンディアンなら一旦オクテットの並びを逆転させてから
数値を読みとる必要がある
RISC系のチップならその逆になる
分かった?
448デフォルトの名無しさん
2018/06/29(金) 03:04:36.82ID:8Q0GtZXS わかんない。
なんで他のシステムで読む可能性のあるファイルなのに
フォーマットを決めないの?
なんで他のシステムで読む可能性のあるファイルなのに
フォーマットを決めないの?
449デフォルトの名無しさん
2018/06/29(金) 09:04:53.35ID:iuHQPsKC >>443
> 行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
例えば、ゴルフボールで次のようにタイプすることを考えてみる。(□はスペース)
□□□□□□□AA
□□□□□□□AA
□□□□□□□AA「CRの無いLF」「BS」「BS」AA
と打つと、行頭に戻すよりも速く打てると思うが。
> 行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
例えば、ゴルフボールで次のようにタイプすることを考えてみる。(□はスペース)
□□□□□□□AA
□□□□□□□AA
□□□□□□□AA「CRの無いLF」「BS」「BS」AA
と打つと、行頭に戻すよりも速く打てると思うが。
450デフォルトの名無しさん
2018/06/29(金) 09:11:34.75ID:pXG1OaDl CISC RISC って今は無意味だしエンディアンとは関係ない
関係あると思うのは知ってるCPUが少ないだけかと
あと上で重ね打ちが昔の話みたいに言ってるけど
man使ったことないの?
端末によるけどたいていアンダーラインがつくよ
関係あると思うのは知ってるCPUが少ないだけかと
あと上で重ね打ちが昔の話みたいに言ってるけど
man使ったことないの?
端末によるけどたいていアンダーラインがつくよ
451デフォルトの名無しさん
2018/06/29(金) 09:17:15.33ID:pXG1OaDl452デフォルトの名無しさん
2018/06/29(金) 11:08:54.85ID:95WXFXv0 BOMの有無でCSVをexcelに読ませる際に文字化けするんだよね
453デフォルトの名無しさん
2018/06/29(金) 11:50:23.53ID:Uc21CWyX そういう仕様だったから、ってのは何の考察にもなってない。
人類が争いをやめないのはそういう仕様になってるから。
人類が争いをやめないのはそういう仕様になってるから。
454デフォルトの名無しさん
2018/06/29(金) 15:14:45.43ID:C6H9lGIq >>450
>(manでは)端末によるけどたいていアンダーラインがつくよ
manでアンダーラインがつかないと言っている人はいないし、昔は
>バックスペースで1文字分戻ってアンダーラインを打ったり
>文字を二度打ちして太字にしたりしてた
というのとは別の話だろ
>(manでは)端末によるけどたいていアンダーラインがつくよ
manでアンダーラインがつかないと言っている人はいないし、昔は
>バックスペースで1文字分戻ってアンダーラインを打ったり
>文字を二度打ちして太字にしたりしてた
というのとは別の話だろ
455デフォルトの名無しさん
2018/06/29(金) 15:35:26.60ID:C6H9lGIq456デフォルトの名無しさん
2018/06/29(金) 16:16:27.86ID:kXqQNYVA457デフォルトの名無しさん
2018/06/29(金) 22:19:47.60ID:jsqIPRMd ちょっと関係ないがGoogle翻訳では改行は%0Aだね。
HTTP関連の改行コードはCRLFが多いと思うんだけど,珍しい。
HTTP関連の改行コードはCRLFが多いと思うんだけど,珍しい。
458デフォルトの名無しさん
2018/06/29(金) 22:36:32.85ID:8Q0GtZXS そこはhttp関係ないじゃん
459デフォルトの名無しさん
2018/06/29(金) 23:08:44.45ID:sSTEuPuw むしろフォーマットがきまってる
リトルエンディアンの形式でもいいし
ビッグエンディアンの形式でもいいというフォーマットだからな
構成システムがリトルエンディアンの計算機が多い場合、リトルエンディアンで扱う方が有利
当然、構成システムがビッグエンディアンの計算機が多い場合、ビッグエンディアンで扱う方が有利になる
後処理の計算機のリソース消費量を減らすために先にいちいち毎回エンディアン変換するのもムダだしな
ちなみにネットワークのプロトコルの標準では歴史的な事情があって
ほぼ暗黙でビッグエンディアンになってる
ドキュメントにエンディアンが記載されてなければ
ビッグエンディアンとみなしてほぼ問題ない
リトルエンディアンの形式でもいいし
ビッグエンディアンの形式でもいいというフォーマットだからな
構成システムがリトルエンディアンの計算機が多い場合、リトルエンディアンで扱う方が有利
当然、構成システムがビッグエンディアンの計算機が多い場合、ビッグエンディアンで扱う方が有利になる
後処理の計算機のリソース消費量を減らすために先にいちいち毎回エンディアン変換するのもムダだしな
ちなみにネットワークのプロトコルの標準では歴史的な事情があって
ほぼ暗黙でビッグエンディアンになってる
ドキュメントにエンディアンが記載されてなければ
ビッグエンディアンとみなしてほぼ問題ない
460デフォルトの名無しさん
2018/06/29(金) 23:10:02.53ID:sSTEuPuw ちなみにキミラみたいな貧乏人が使ってるPCは
ほとんどリトルエンディアンになる
ほとんどリトルエンディアンになる
461デフォルトの名無しさん
2018/06/30(土) 00:16:14.33ID:I+9paw5R やっぱり今時半角カタカナ使う人にはアレな人が多いのか
462デフォルトの名無しさん
2018/06/30(土) 01:04:57.77ID:2NGdD93t463デフォルトの名無しさん
2018/06/30(土) 03:46:45.67ID:O2H7A6pY464デフォルトの名無しさん
2018/06/30(土) 04:38:43.11ID:8S9cJyih やっぱりユニコードが諸悪の根源
あれが入って来てからコンピュータが扱いづらくなった
日本はSJISに統一しよう
あれが入って来てからコンピュータが扱いづらくなった
日本はSJISに統一しよう
465デフォルトの名無しさん
2018/06/30(土) 06:04:05.89ID:tYfB6W3t Unicode程度でコンピューターを扱いずらくなる脳味噌って……同情するわ。
466デフォルトの名無しさん
2018/06/30(土) 13:06:02.67ID:QAvD/WKt エンディアン関係ないUTF-8が一番良いな
467デフォルトの名無しさん
2018/06/30(土) 13:32:27.92ID:cCXC0XvW UTF-8 はバイト列を見て文字がわかりにくいのが難点
468デフォルトの名無しさん
2018/06/30(土) 13:49:23.03ID:O2H7A6pY >>467
なんで?
なんで?
>>464
最初から 32 ビットにしなかったのが問題でしたね
最初から 32 ビットにしなかったのが問題でしたね
470デフォルトの名無しさん
2018/06/30(土) 18:58:11.39ID:cCXC0XvW >>468
うーん、いやあ、あらためて考えると単に分かりづらいと思い込んでる
だけだったかも。JISX0208 の文字って3バイトになるでしょ。
あの 3バイトずつになるのがどうも慣れないだけだった。467 は撤回するよ
うーん、いやあ、あらためて考えると単に分かりづらいと思い込んでる
だけだったかも。JISX0208 の文字って3バイトになるでしょ。
あの 3バイトずつになるのがどうも慣れないだけだった。467 は撤回するよ
471デフォルトの名無しさん
2018/06/30(土) 20:27:41.69ID:ozTCpxdq BOMでエンディアンが規定できるからな
そのようにフォーマットできまってる
数値の読みとりかたも一意に定まる
どっちでもいいというワケではない
バカはホント困るわぁ
つまり
リトルエンディアンで2つ以上のオクテットがあるのに
先頭にBOM入れないヤツはゴミクズといえる
Javaのバイトコードに CAFE BABE が入ってないぐらいお話にならない
ビッグエンディアンならBOMなくてもオレはよいとしようと考える
そのようにフォーマットできまってる
数値の読みとりかたも一意に定まる
どっちでもいいというワケではない
バカはホント困るわぁ
つまり
リトルエンディアンで2つ以上のオクテットがあるのに
先頭にBOM入れないヤツはゴミクズといえる
Javaのバイトコードに CAFE BABE が入ってないぐらいお話にならない
ビッグエンディアンならBOMなくてもオレはよいとしようと考える
472デフォルトの名無しさん
2018/06/30(土) 22:43:16.16ID:2NGdD93t 半角カタカナは目に入ってこないなw
473デフォルトの名無しさん
2018/06/30(土) 23:05:58.78ID:8S9cJyih 恐ろしいのは、PCを使う一般人はユニコードとかBOMとか全く知らないこと
IT技術とIT利用者のレベルのギャップがいつかデカい事件を起こすだろう
PC社会は薄氷の上を歩くような危うさの中に成り立っている
IT技術とIT利用者のレベルのギャップがいつかデカい事件を起こすだろう
PC社会は薄氷の上を歩くような危うさの中に成り立っている
474デフォルトの名無しさん
2018/06/30(土) 23:20:50.17ID:0vzJToCT 未だに半角とか全角を使用者に意識させるのが残念でならない
カタカナなんて文字としては一種類なんだから機械的に変換してしまうのが当たり前になって良さそうなのに
カタカナなんて文字としては一種類なんだから機械的に変換してしまうのが当たり前になって良さそうなのに
475デフォルトの名無しさん
2018/07/01(日) 15:37:44.32ID:ep584YMH 2ちゃんがSJISオンリーってのがそもそもはよなおせ
476デフォルトの名無しさん
2018/07/01(日) 15:50:52.13ID:3SrV2o5x sjisオンリー❓🤔
477デフォルトの名無しさん
2018/07/01(日) 16:00:26.27ID:omYv90Gk478デフォルトの名無しさん
2018/07/01(日) 18:18:14.73ID:EnuoS7Gy Unicodeのクソなところは、既存のコード体系を無視してるところだよな。
まさに欧米人のやり口そのもの。
まさに欧米人のやり口そのもの。
479デフォルトの名無しさん
2018/07/02(月) 03:00:52.60ID:EL6wSxah たとえば?
480デフォルトの名無しさん
2018/07/02(月) 08:27:03.72ID:FZsTYqY7 Shift-JISが発音区別符号のついたラテン文字などをサポートしていればよかったのに。
481デフォルトの名無しさん
2018/07/03(火) 09:01:30.75ID:IDUMbXdY482デフォルトの名無しさん
2018/07/03(火) 14:32:34.20ID:R6pmKHtn483デフォルトの名無しさん
2018/07/03(火) 14:34:40.85ID:gQF2QJmD SJISは廃用で
484デフォルトの名無しさん
2018/07/03(火) 14:55:13.29ID:pQbF/VH/ はいよっ!
485デフォルトの名無しさん
2018/07/04(水) 03:13:37.83ID:FxllvN6o >>482
ビット立てながら先頭から見ればいいだけじゃん?
ビット立てながら先頭から見ればいいだけじゃん?
486デフォルトの名無しさん
2018/07/04(水) 17:14:03.55ID:LFQ4ypq9 うーん
487デフォルトの名無しさん
2018/07/04(水) 21:57:50.06ID:gFgZc5FG KZD
488デフォルトの名無しさん
2018/07/04(水) 23:49:15.94ID:s7W39adb 昔、Unicodeもない時代に全文検索エンジン作ったことがあるが
インデックス作るのにもマッチング用に符号圧縮したデータ作るのにも
設計がめんどいわ処理時間がかかるわだろうから
Shift_JISデータから16bitのデータに一旦変換してからそういったデータを作成するようにしてたわ
要件が検索漏れゼロ、ノイズゼロ、なおかつメディアは超トロイCD-ROMという
ありえない滅茶苦茶な内容だったからな
インデクサは大富豪な設計でないとやってられなかった
インデックス作成にリアルタイム性が要求されなかったからまだ救いがあったともいえる
その全文検索エンジンはインデックスを大きくすればするほどインデックスが大きくなるかわりに
最悪のケースの速度が速くなるという仕様にした(最低限必要な性能の要求水準に応えるため)
インデックスを大きくするということはインデックスを作るのに当然時間がかかるということになる
いまはそれもとてつもなくデータが増えてDVDになってる
インデックスもものすごい大きくなってる
で、その最悪のケースというのは、
符号圧縮されたデータをマッチングする回数が増えることを意味する
マッチングの条件はマッチングキーワードから生成するインデックスに含まれる符号圧縮された符号の組み合わせになる
そのマッチングアルゴリズムにBMHを使うことになる
インデックス作るのにもマッチング用に符号圧縮したデータ作るのにも
設計がめんどいわ処理時間がかかるわだろうから
Shift_JISデータから16bitのデータに一旦変換してからそういったデータを作成するようにしてたわ
要件が検索漏れゼロ、ノイズゼロ、なおかつメディアは超トロイCD-ROMという
ありえない滅茶苦茶な内容だったからな
インデクサは大富豪な設計でないとやってられなかった
インデックス作成にリアルタイム性が要求されなかったからまだ救いがあったともいえる
その全文検索エンジンはインデックスを大きくすればするほどインデックスが大きくなるかわりに
最悪のケースの速度が速くなるという仕様にした(最低限必要な性能の要求水準に応えるため)
インデックスを大きくするということはインデックスを作るのに当然時間がかかるということになる
いまはそれもとてつもなくデータが増えてDVDになってる
インデックスもものすごい大きくなってる
で、その最悪のケースというのは、
符号圧縮されたデータをマッチングする回数が増えることを意味する
マッチングの条件はマッチングキーワードから生成するインデックスに含まれる符号圧縮された符号の組み合わせになる
そのマッチングアルゴリズムにBMHを使うことになる
489デフォルトの名無しさん
2018/07/04(水) 23:50:33.59ID:s7W39adb で、このBMHというのは文字列マッチングで非常に有効なアルゴリズムといえる
しかしShift_JISでは使えない
ユニコードならそのまんま使える
順方向からの文字列マッチングですらShift_JISでは
こういった高速なマッチングアルゴリズムが使えない
いかにShift_JISがウンコかよくわかる典型的な例といっていい
しかしShift_JISでは使えない
ユニコードならそのまんま使える
順方向からの文字列マッチングですらShift_JISでは
こういった高速なマッチングアルゴリズムが使えない
いかにShift_JISがウンコかよくわかる典型的な例といっていい
490デフォルトの名無しさん
2018/07/05(木) 01:32:31.02ID:Iw1yLrzA491デフォルトの名無しさん
2018/07/05(木) 01:51:36.04ID:T0L/NWDK ただし抜けやすくなる
492デフォルトの名無しさん
2018/07/05(木) 02:11:26.21ID:8UhFPcQc 半角カタカナを多用されるとCOBOLで作ったんじゃないかと思っちゃうね
493デフォルトの名無しさん
2018/07/05(木) 02:30:50.16ID:HIyPet1B 大発見じゃん
494デフォルトの名無しさん
2018/07/05(木) 18:37:34.34ID:0T2GdzcY 半角カナもそうだけど、全角英数も大概だよなぁ
経緯的なもんだろうけど、
未だに『住所はすべて全角で』みたいなWebフォーム有ったりするし
経緯的なもんだろうけど、
未だに『住所はすべて全角で』みたいなWebフォーム有ったりするし
495デフォルトの名無しさん
2018/07/05(木) 19:38:22.34ID:CqUNBSEq Unicodeって日本を優遇しすぎてない? そう思うのは日本人の奢りなのかな。
例えば上で挙げられてる絵文字や全角英数、半角片仮名だって日本由来だし、
「CJK互換文字」と謳いつつ、キロメートルを一文字幅に短縮したやつとかも全部日本のJISコードとの互換性を保つために導入されてる訳じゃん。
そういうのってどうなのかなぁ。
自分は嬉しい(過去の、Shift-JISでエンコードされた文書が情報の欠損なく読めるから)んだけどね、もちろん。
例えば上で挙げられてる絵文字や全角英数、半角片仮名だって日本由来だし、
「CJK互換文字」と謳いつつ、キロメートルを一文字幅に短縮したやつとかも全部日本のJISコードとの互換性を保つために導入されてる訳じゃん。
そういうのってどうなのかなぁ。
自分は嬉しい(過去の、Shift-JISでエンコードされた文書が情報の欠損なく読めるから)んだけどね、もちろん。
496デフォルトの名無しさん
2018/07/05(木) 20:37:53.33ID:cHUpj8OH >>495
線文字Aとか楔形文字拡張とか見ても同じこと言えるか?
線文字Aとか楔形文字拡張とか見ても同じこと言えるか?
497デフォルトの名無しさん
2018/07/05(木) 21:16:32.44ID:CqUNBSEq >>496
でもあれは互換性もクソもないじゃん
でもあれは互換性もクソもないじゃん
498デフォルトの名無しさん
2018/07/05(木) 22:49:22.73ID:cHUpj8OH 誰にも読めない、使えない、未解読の古代文字とか登録してるくらいだから、現代でも使用可能な文字なら余裕って話だ。
499デフォルトの名無しさん
2018/07/05(木) 23:18:38.72ID:0kDXGIdf だめか
𒀑
𒄦
くさび
𒀑
𒄦
くさび
500デフォルトの名無しさん
2018/07/06(金) 07:29:45.69ID:3U2Ta28u ~(元号を一文字化したもの)とかあるからな
申請すれば何でも通るんじゃねーの
申請すれば何でも通るんじゃねーの
501デフォルトの名無しさん
2018/07/06(金) 08:24:58.10ID:QJllJwz8 申請する権利のある人ならな。
大手OSメーカー、国家規格代表、ごく一部の文字専門家。
大手OSメーカー、国家規格代表、ごく一部の文字専門家。
502デフォルトの名無しさん
2018/07/06(金) 08:47:24.31ID:IGjSb2yt 潤A~などは、昔の(日本の)文字コードとの互換性を取るために
残しているだけ。だから、次の元号の合わせ文字は通らない。
残しているだけ。だから、次の元号の合わせ文字は通らない。
503デフォルトの名無しさん
2018/07/06(金) 10:05:30.92ID:odzQpd8G 文部の沙汰も金私大
504デフォルトの名無しさん
2018/07/06(金) 19:02:02.70ID:3U2Ta28u >>502
もうコードの場所を確保してあるってMSの元号対応ブログで言ってたよ
もうコードの場所を確保してあるってMSの元号対応ブログで言ってたよ
505デフォルトの名無しさん
2018/07/06(金) 22:30:52.61ID:p79Hvr/2506デフォルトの名無しさん
2018/07/07(土) 01:28:54.42ID:kLxolQc6 空いてるとこにテキトーにいれてるだけやん
文字コードが連続してないし
ひどいマッピングされてるわ
文字コードが連続してないし
ひどいマッピングされてるわ
507デフォルトの名無しさん
2018/07/07(土) 10:47:15.09ID:OQyJYPpl 元号は、これからもどんどん増えてゆくんだから、Unicodeに
「日本元号面」を作って、そこに入れるようにしてほしい。
「日本元号面」を作って、そこに入れるようにしてほしい。
508デフォルトの名無しさん
2018/07/07(土) 11:50:18.74ID:kLxolQc6 ちなみに先に書いた全文検索エンジンでは
アイウエオもアイウエオも
ガギグゲゴもガギグゲゴも
12345も12345も
abcdeもabcdeも
同じ文字コードとして扱ってる
つまりどっちでキーワード書いても当たる
見た目(つまりグリフ)が違うだけで同じだからな
しかし明治大正昭和平成を合紫順~までは
やってない
すでにいろんなもんでその全文検索エンジンは使われてるが
コレで文句がきたことはない
つまりだれも気にしてない
アイウエオもアイウエオも
ガギグゲゴもガギグゲゴも
12345も12345も
abcdeもabcdeも
同じ文字コードとして扱ってる
つまりどっちでキーワード書いても当たる
見た目(つまりグリフ)が違うだけで同じだからな
しかし明治大正昭和平成を合紫順~までは
やってない
すでにいろんなもんでその全文検索エンジンは使われてるが
コレで文句がきたことはない
つまりだれも気にしてない
509デフォルトの名無しさん
2018/07/07(土) 13:23:15.59ID:WVErtcKw カ゚キ゚ク゚ケ゚コ゚はどうなるんだ
510デフォルトの名無しさん
2018/07/07(土) 13:49:40.16ID:kLxolQc6 こんな感じの内容からインデックスやマッチング用のデータが作成される
ガギグゲゴ ガギグゲゴ ⇒ カ゛キ゛ク゛ケ゛コ゛
カ゚キ゚ク゚ケ゚コ゚ ⇒ カ゜キ゜ク゜ケ゜コ゜
つまりインデックスやマッチング用のデータを作る前に前処理で一気に痴漢することになる
で、キーワードをガギグゲゴやガギギゲゴやカ゛キ゛ク゛ケ゛コ゛にすると
カ゛キ゛ク゛ケ゛コ゛で検索することになる
つまりこの全文検索エンジンは濁音も半濁音も検索できる超優れものといえるのだ
ガギグゲゴ ガギグゲゴ ⇒ カ゛キ゛ク゛ケ゛コ゛
カ゚キ゚ク゚ケ゚コ゚ ⇒ カ゜キ゜ク゜ケ゜コ゜
つまりインデックスやマッチング用のデータを作る前に前処理で一気に痴漢することになる
で、キーワードをガギグゲゴやガギギゲゴやカ゛キ゛ク゛ケ゛コ゛にすると
カ゛キ゛ク゛ケ゛コ゛で検索することになる
つまりこの全文検索エンジンは濁音も半濁音も検索できる超優れものといえるのだ
511デフォルトの名無しさん
2018/07/07(土) 14:06:53.21ID:IMiijYtR 痴漢アカン
512デフォルトの名無しさん
2018/07/07(土) 14:25:13.00ID:WVErtcKw 俺はそういうのを考えるのが面倒だからUNICODE正規化だけしてる
おかげで平成と~もちゃんと検索でヒットする
おかげで平成と~もちゃんと検索でヒットする
513デフォルトの名無しさん
2018/07/07(土) 15:16:01.20ID:kLxolQc6 ちなみに客ごとに置換辞書を作ってる
客ごとに要望が違うからな
客によってはいろんな要望をいってくる客もいる
その要望に応えるのも仕事だからな
で、そのなかに合紫順~を置換した例はない
全角にマッピングされてるasciiや半角カナの部分は
コレについてほぼ間違いなくみな同じ結論になる
それ以外で異なる特殊な部分は結構ある
文字コードでシノニムの部分もあれば、それ以外でシノニムにしたい部分もあったりする
それは客の業務に依存する部分になるからな
客ごとに要望が違うからな
客によってはいろんな要望をいってくる客もいる
その要望に応えるのも仕事だからな
で、そのなかに合紫順~を置換した例はない
全角にマッピングされてるasciiや半角カナの部分は
コレについてほぼ間違いなくみな同じ結論になる
それ以外で異なる特殊な部分は結構ある
文字コードでシノニムの部分もあれば、それ以外でシノニムにしたい部分もあったりする
それは客の業務に依存する部分になるからな
514デフォルトの名無しさん
2018/07/07(土) 15:17:11.21ID:kLxolQc6 考えるのはキミじゃないワケ
キミはただのドカタなワケ
わかる?
客と良好な関係を保つには
できるだけ、それは仕様ですは避けないといけない
そしてそれを低いコストで実現できないといけない
なにをしたいのかはっきりといってる部分については
こっちから客の業務についてどうこういう必要も理由もないし
こんなしょうもないことを実現するためにめっちゃカネかかりますよとかいえるワケもない
そういうことだ
キミはただのドカタなワケ
わかる?
客と良好な関係を保つには
できるだけ、それは仕様ですは避けないといけない
そしてそれを低いコストで実現できないといけない
なにをしたいのかはっきりといってる部分については
こっちから客の業務についてどうこういう必要も理由もないし
こんなしょうもないことを実現するためにめっちゃカネかかりますよとかいえるワケもない
そういうことだ
515デフォルトの名無しさん
2018/07/07(土) 15:56:51.92ID:hSg2x2AH■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【中国外務省】日中関係悪化は高市氏に責任と名指しで非難… ★5 [BFU★]
- 【インバウンド】中国からの“渡航自粛”…ツアー1000人分の直前キャンセル「キャンセル料は免除してくれ」 ことしいっぱいキャンセルに [1ゲットロボ★]
- XやChatGPTで広範囲の通信障害 投稿や閲覧できず [蚤の市★]
- 「国民の憤りを引き起こした」中国側“高市首相発言の撤回改めて要求” [どどん★]
- 【サッカー】日本代表、ボリビアに3発快勝 森保監督通算100試合目を飾る…鎌田、町野、中村がゴール [久太郎★]
- 【ローソン】ロゴの「L」で誤解生んだコーヒーカップ、デザイン変更へ 在庫使い切る3か月後にリニューアル [ぐれ★]
- 【悲報】SANA、発言撤回拒否 [769931615]
- 米シンクタンク「アメリカは台湾問題で"あいまい戦略"を取っている。高市早苗はこの方針から逸脱している」 [603416639]
- ジャーナリストがテレビで解説「台湾問題は高市総理から言ったのではなく、立憲民主が日本の対応可能能力を暴こうとしたから」 [359572271]
- 俺性格悪いなって思った瞬間あげてけ
- 「遺体、安倍、会いたい」👈逆から読んでみて [175344491]
- 船井「ククク…♥残念やけどカイジさんはこれで別室行きや…♥」黒服「来いっ…♥」カイジ「やめろ!やめてくれっ…!」
