プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
探検
文字コード総合スレ Part11
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2018/01/22(月) 22:58:23.45ID:UK/uqEp5372デフォルトの名無しさん
2018/06/09(土) 09:13:51.52ID:8sRiN6h8373デフォルトの名無しさん
2018/06/09(土) 19:05:32.10ID:roRwdie6 curl 'http://www.unicode.org/Public/UCD/latest/ucd/UnicodeData.txt' | wc -l
とやると
32292
と返ってきたんだけど、つまり今現在Unicodeには32292文字が収録されていると思っていいのかな。
とやると
32292
と返ってきたんだけど、つまり今現在Unicodeには32292文字が収録されていると思っていいのかな。
374デフォルトの名無しさん
2018/06/10(日) 06:07:59.44ID:gv3HXRco 何?結局16バイトに収まってたという話?
375デフォルトの名無しさん
2018/06/10(日) 06:08:19.99ID:gv3HXRco ビットだ……恥ずかしい
376デフォルトの名無しさん
2018/06/10(日) 15:33:08.87ID:mkooDB8i377デフォルトの名無しさん
2018/06/10(日) 16:00:53.49ID:aEB47NCz Android P Beta 2、グリーンサラダの絵文字からゆで卵が消える | スラド デベロッパー
https://developers.srad.jp/story/18/06/09/0621201/
ゆで卵を入れる多様性は許されないのか
https://developers.srad.jp/story/18/06/09/0621201/
ゆで卵を入れる多様性は許されないのか
378デフォルトの名無しさん
2018/06/11(月) 13:52:38.76ID:HvQh9O78 ジェンダーの方もなんか過剰だよね。政治的な活動家でもいるのかね
サラダの絵文字からGoogle、「卵」を排除 生産者団体が異議、「卵を返せ」論争に
https://www.j-cast.com/2018/06/09330966.html?p=all
サラダの絵文字からGoogle、「卵」を排除 生産者団体が異議、「卵を返せ」論争に
https://www.j-cast.com/2018/06/09330966.html?p=all
379デフォルトの名無しさん
2018/06/11(月) 16:02:07.37ID:yunMmu3l なんか力抜けたわw
381デフォルトの名無しさん
2018/06/13(水) 00:45:51.71 どうなってんのこれ🤔
🌕🌔🌕🌕🌕🌕🌕🌕
🌕🌒🌕🌕🌕🌕🌕🌕
🌖🌓🌕🌕🌔🌕🌕🌕
🌖🌒🌕🌗🌑🌔🌕🌕
🌖🌑🌔🌘🌒🌕🌕🌕
🌕🌘🌑🌑🌑🌑🌒🌕
🌕🌕🌘🌑🌑🌑🌑🌒
🌕🌕🌖🌑🌑🌒🌗🌓
🌕🌕🌕🌘🌑🌑🌘🌔
🌕🌕🌖🌑🌑🌑🌘🌔
🌕🌕🌗🌑🌑🌑🌖🌔
🌕🌕🌕🌘🌑🌑🌕🌔
🌕🌕🌕🌗🌒🌘🌔🌕
🌕🌕🌕🌗🌒🌖🌒🌕
🌕🌕🌕🌗🌓🌕🌒🌕
🌕🌔🌕🌕🌕🌕🌕🌕
🌕🌒🌕🌕🌕🌕🌕🌕
🌖🌓🌕🌕🌔🌕🌕🌕
🌖🌒🌕🌗🌑🌔🌕🌕
🌖🌑🌔🌘🌒🌕🌕🌕
🌕🌘🌑🌑🌑🌑🌒🌕
🌕🌕🌘🌑🌑🌑🌑🌒
🌕🌕🌖🌑🌑🌒🌗🌓
🌕🌕🌕🌘🌑🌑🌘🌔
🌕🌕🌖🌑🌑🌑🌘🌔
🌕🌕🌗🌑🌑🌑🌖🌔
🌕🌕🌕🌘🌑🌑🌕🌔
🌕🌕🌕🌗🌒🌘🌔🌕
🌕🌕🌕🌗🌒🌖🌒🌕
🌕🌕🌕🌗🌓🌕🌒🌕
382デフォルトの名無しさん
2018/06/13(水) 00:55:38.87ID:ixGTG5kv 5ちゃんでemojiのAAは文字数制限が厳しいからどうしても小さくなりがちだな
383デフォルトの名無しさん
2018/06/13(水) 06:58:34.14ID:mbRQ9skB なにか問題でも?
🧙🧚🧛🧜🧝🧟
🧙🏻🧚🏻🧛🏻🧜🏻🧝🏻🧟🏻
🧙🏼🧚🏼🧛🏼🧜🏼🧝🏼🧟🏼
🧙🏽🧚🏽🧛🏽🧜🏽🧝🏽🧟🏽
🧙🏾🧚🏾🧛🏾🧜🏾🧝🏾🧟🏾
🧙🏿🧚🏿🧛🏿🧜🏿🧝🏿🧟🏿
🧙🧚🧛🧜🧝🧟
🧙🏻🧚🏻🧛🏻🧜🏻🧝🏻🧟🏻
🧙🏼🧚🏼🧛🏼🧜🏼🧝🏼🧟🏼
🧙🏽🧚🏽🧛🏽🧜🏽🧝🏽🧟🏽
🧙🏾🧚🏾🧛🏾🧜🏾🧝🏾🧟🏾
🧙🏿🧚🏿🧛🏿🧜🏿🧝🏿🧟🏿
384デフォルトの名無しさん
2018/06/17(日) 09:04:29.91ID:89kw/R7U ユニコードとUTF8は何が違うんでしょうか
どちらもユニコード?それとも別のコード?頭がおかしくなりそうです
SJISだけで全て丸く収まっていた平和な日本にとんだ黒船がやってきた・・・
どちらもユニコード?それとも別のコード?頭がおかしくなりそうです
SJISだけで全て丸く収まっていた平和な日本にとんだ黒船がやってきた・・・
385デフォルトの名無しさん
2018/06/17(日) 09:50:58.25ID:GftzeAnS アップル外字どうなの
386デフォルトの名無しさん
2018/06/17(日) 12:32:46.14ID:IMOrQ/Bc >>384
文字集合と文字符号の違いならわかる?
文字集合と文字符号の違いならわかる?
387デフォルトの名無しさん
2018/06/17(日) 12:38:22.96388デフォルトの名無しさん
2018/06/17(日) 12:51:10.01ID:usQhZnOB Shift_JISだって文字集合違ったりベンダ固有拡張あったりで
全然丸く収まってないよ殴り合いだよ
全然丸く収まってないよ殴り合いだよ
389デフォルトの名無しさん
2018/06/17(日) 13:31:33.71ID:wUKxAbyR MSのgithub買収でVSからclone出来ないリポジトリが増えて
SJIS消えてくれたらいいのに
っていうかwindowsの標準localeでUTF-8選びたいんだが
chcp65001はもういやバグだらけ
SJIS消えてくれたらいいのに
っていうかwindowsの標準localeでUTF-8選びたいんだが
chcp65001はもういやバグだらけ
390デフォルトの名無しさん
2018/06/17(日) 13:54:11.58ID:bLV6Ydf8 >>389
今のWindows10ではUTF-8選べるから人柱になってくれ
今のWindows10ではUTF-8選べるから人柱になってくれ
391デフォルトの名無しさん
2018/06/18(月) 01:32:33.22ID:44rsiuEs linux つかってる俺はUTF8統一で隙はなかった。
そういえばGO言語ってソースコードはUTF8で書けって仕様で規定されてるんだな。(変な文字変数名に使えてビビった)
そういえばGO言語ってソースコードはUTF8で書けって仕様で規定されてるんだな。(変な文字変数名に使えてビビった)
392デフォルトの名無しさん
2018/06/18(月) 15:52:30.27ID:54OwzSMe sjisはまだ許せる。utf16てめーはダメだ
内部コードに留めてメモリから外に出てこないでくれ
内部コードに留めてメモリから外に出てこないでくれ
393デフォルトの名無しさん
2018/06/18(月) 16:14:38.61ID:q6319o4n std::wstringがデフォルトでUTF-32になるLinux 64bit版のSTLにも同じこと言えんの?
394デフォルトの名無しさん
2018/06/18(月) 16:17:38.73ID:HrWV3yi6 SJISは完全に廃用でおk
395デフォルトの名無しさん
2018/06/18(月) 16:32:51.52ID:UtQrM811 ほんそれ
396デフォルトの名無しさん
2018/06/18(月) 17:04:46.60ID:EvkbZGBx char32_tのある今、wchar_tの存在価値なんて無いでしょ
環境依存する上にWindowsではUTF-16ということで1要素1文字の前提も崩れてるし
環境依存する上にWindowsではUTF-16ということで1要素1文字の前提も崩れてるし
397デフォルトの名無しさん
2018/06/18(月) 20:41:12.57ID:44rsiuEs 誰に賛成して、誰に反対しているかわからん。安価つけろ。
398デフォルトの名無しさん
2018/06/19(火) 07:29:13.13ID:DGMT9Nzy ?
399デフォルトの名無しさん
2018/06/19(火) 23:25:00.68ID:3zIXQUO/ A社やG社始めメジャーなクラウド系サービスは全部UTF-8だな
400デフォルトの名無しさん
2018/06/20(水) 01:39:40.00ID:xDrhFFX5 でも客にはSJIS対応を求められる不思議
401デフォルトの名無しさん
2018/06/20(水) 01:55:53.31ID:9U83APqd 意味がわからないよな
SJIS神話は何なのだろう
ジジイだけでなく中年や、中には学生にまであるよねww
学生なんて生まれたときからUTF-8の環境にいるはずで、
わざわざ使いにくい環境をどこで覚えてくるんだろうと怖くもあるww
SJIS神話は何なのだろう
ジジイだけでなく中年や、中には学生にまであるよねww
学生なんて生まれたときからUTF-8の環境にいるはずで、
わざわざ使いにくい環境をどこで覚えてくるんだろうと怖くもあるww
402デフォルトの名無しさん
2018/06/20(水) 02:06:06.18ID:xDrhFFX5 日本語が2バイトで済む安心感じゃないの?
あと、最近の根拠もなく他国をおとしめて喜んでいる類の人達には、
日本専用のコード体系かっけーさすが日本すげーとか思ってそう。
あと、最近の根拠もなく他国をおとしめて喜んでいる類の人達には、
日本専用のコード体系かっけーさすが日本すげーとか思ってそう。
403デフォルトの名無しさん
2018/06/20(水) 06:24:00.33ID:ZRnpXX67 >>402
日本のビジネスデータは全銀フォーマット等のような固定長が基本だから
文字のバイト数が可変のUTF8は向かないんだよね
うちのシステムでも、相手がUTF8で作ったテキストを送りつけてきて
大事故になったことがあった
日本のビジネスデータは全銀フォーマット等のような固定長が基本だから
文字のバイト数が可変のUTF8は向かないんだよね
うちのシステムでも、相手がUTF8で作ったテキストを送りつけてきて
大事故になったことがあった
404デフォルトの名無しさん
2018/06/20(水) 08:03:37.13ID:Va19lMsb 日本はまだマシで英語しか知らない欧米の連中だと「文字は1バイト」が常識だから
多言語化してても日本語を表示すると半分しか表示されないとかザラ。
最近はライブラリの整備や(通常全角幅の)絵文字の浸透のおかげで欧米の保守層にも文字コードの概念が伝わってるけどね。
多言語化してても日本語を表示すると半分しか表示されないとかザラ。
最近はライブラリの整備や(通常全角幅の)絵文字の浸透のおかげで欧米の保守層にも文字コードの概念が伝わってるけどね。
405デフォルトの名無しさん
2018/06/20(水) 08:52:51.05ID:OmEBDQrT 絵文字どころか10年以上前流行ったような古い日本の全角顔文字発掘してきて使ったりしてるよな最近
406デフォルトの名無しさん
2018/06/20(水) 15:17:43.40ID:OnxnZInx >>401
ほんそれ
ほんそれ
407デフォルトの名無しさん
2018/06/20(水) 15:19:01.43ID:OnxnZInx408デフォルトの名無しさん
2018/06/20(水) 17:02:56.44ID:AAtEE73s utf-8で何も考えずにソートしたら漢字の並びが非直感的になるから
しぶしぶsjis
しぶしぶsjis
409デフォルトの名無しさん
2018/06/20(水) 19:18:14.29ID:d5aRGVoI >>404
想像で言ってるだろ
想像で言ってるだろ
410デフォルトの名無しさん
2018/06/20(水) 19:25:53.85ID:/OAGNKMT このスレは、Windowsを実務PCとして使ってない人が愚痴をこぼすスレですか。
411デフォルトの名無しさん
2018/06/20(水) 19:50:25.18ID:FyXniq7l ほんそれ。
Windows使ってりゃSJIS要求するのは普通だし、そのWindowsはレガシーとしてSJISを捨てられないだけだし。
神話とか日本専用コードとかw
Windows使ってりゃSJIS要求するのは普通だし、そのWindowsはレガシーとしてSJISを捨てられないだけだし。
神話とか日本専用コードとかw
412デフォルトの名無しさん
2018/06/20(水) 20:58:05.50ID:Va19lMsb Windowsの文字コード周りで唯一好きなのは改行コードが\r\nである点。
他の環境ではLFだけという実際に即していないコードだから嫌。
LFなら普通は「桁位置はそのままで次の行に」でしょ……
abc\n
de
↑こうなるべき。
他の環境ではLFだけという実際に即していないコードだから嫌。
LFなら普通は「桁位置はそのままで次の行に」でしょ……
abc\n
de
↑こうなるべき。
413デフォルトの名無しさん
2018/06/20(水) 21:28:20.83ID:FyXniq7l Windowsは互換性のためしょうがない部分はあるが、そういうのは\e[でやってろって感じだな。
414デフォルトの名無しさん
2018/06/21(木) 01:11:25.06ID:M+oxnni+415デフォルトの名無しさん
2018/06/21(木) 01:29:39.14ID:9yZQgWTf ラインプリンター由来じゃなくてタイプライター由来じゃないの
キャリッジリターン
ラインフィード
キャリッジリターン
ラインフィード
416デフォルトの名無しさん
2018/06/21(木) 01:34:17.28ID:M+oxnni+417デフォルトの名無しさん
2018/06/21(木) 01:45:44.30ID:9yZQgWTf じゃあラインプリンターにもキャリッジあるの?
https://www.e-bridge.jp/eb/tcontents/yasasikunai-p/images/imageA001.jpg
https://www.e-bridge.jp/eb/tcontents/yasasikunai-p/images/imageA001.jpg
418デフォルトの名無しさん
2018/06/21(木) 02:17:29.23ID:vn+zRuHD ラインまるごと打つからラインプリンターなんだよねw
419デフォルトの名無しさん
2018/06/21(木) 09:07:52.61ID:y5k3a+mj MACみたいにCRだけっていうのは病気だけど
CR+LFが来たら常にCR無視しておけばいいし
自分で出力するときはLFだけ出力しておけばいい
それだけ
CR+LFが来たら常にCR無視しておけばいいし
自分で出力するときはLFだけ出力しておけばいい
それだけ
420デフォルトの名無しさん
2018/06/21(木) 09:41:35.70ID:CR9+5isI Why is the line terminator CR+LF?
https://blogs.msdn.microsoft.com/oldnewthing/20040318-00/?p=40193
If you go to the various internet protocol documents, such as RFC 0821 (SMTP), RFC 1939 (POP), RFC 2060 (IMAP), or RFC 2616 (HTTP),
you'll see that they all specify CR+LF as the line termination sequence.
So the the real question is not "Why do CP/M, MS-DOS, and Win32 use CR+LF as the line terminator?"
but rather "Why did other people choose to differ from these standards documents and use some other line terminator?"
https://blogs.msdn.microsoft.com/oldnewthing/20040318-00/?p=40193
If you go to the various internet protocol documents, such as RFC 0821 (SMTP), RFC 1939 (POP), RFC 2060 (IMAP), or RFC 2616 (HTTP),
you'll see that they all specify CR+LF as the line termination sequence.
So the the real question is not "Why do CP/M, MS-DOS, and Win32 use CR+LF as the line terminator?"
but rather "Why did other people choose to differ from these standards documents and use some other line terminator?"
421デフォルトの名無しさん
2018/06/22(金) 13:23:16.23ID:zvOmzJZB そのブログは CR + LF を正当化してるけど、テキストファイルの改行は
単に行のデリミタであって、カーソルの移動を意味してるわけじゃないと思うんだよね
単に行のデリミタであって、カーソルの移動を意味してるわけじゃないと思うんだよね
422デフォルトの名無しさん
2018/06/22(金) 15:59:28.46ID:MYEvMa8B International Business Machines
423デフォルトの名無しさん
2018/06/22(金) 21:46:22.33ID:Lyh+6zOM HAL 9000
"I'm sorry, Dave, I'm afraid I can't do that."
"I'm sorry, Dave, I'm afraid I can't do that."
424デフォルトの名無しさん
2018/06/26(火) 16:07:00.46ID:Jp9iFqVj >>421
だよな。テレタイプじゃないんだから10か13をLE(Line End)にすればいいんだ
だよな。テレタイプじゃないんだから10か13をLE(Line End)にすればいいんだ
425デフォルトの名無しさん
2018/06/26(火) 22:23:33.42ID:PAZ2qH9Y 一方でEBCDICはCRやLFとは別にNLを定義した。
426デフォルトの名無しさん
2018/06/27(水) 00:01:18.11ID:4lF2I/sY コレが正解
https://i.stack.imgur.com/e4xm6.jpg
つまり
carriage returnは行頭に復帰
line feedは行送り
CRだけなら何度も同じ行が上書きされる(行送りされない)
LFだけなら例えば3行だとこうなる
XXXXXXXX
XXXXXXXX
XXXXXXXX
https://i.stack.imgur.com/e4xm6.jpg
つまり
carriage returnは行頭に復帰
line feedは行送り
CRだけなら何度も同じ行が上書きされる(行送りされない)
LFだけなら例えば3行だとこうなる
XXXXXXXX
XXXXXXXX
XXXXXXXX
427デフォルトの名無しさん
2018/06/27(水) 00:23:59.29ID:Xb4utxw7 ⮠じゃなくて⮦
428デフォルトの名無しさん
2018/06/27(水) 00:37:35.67ID:BTQKl7xc429デフォルトの名無しさん
2018/06/27(水) 00:53:00.34ID:4lF2I/sY そんなこといいだしたら
デリミタなんかなんでもいいことになる
ただの文字コードの羅列だからな
CRである必要もないしLFである必要もない
そもそもキミラはアホなこといってるワケ
項目のデリミタにカンマつかったり水平タブ使ったりする
行のデリミタだってなんでもいい
バカはホント困るわぁ
デリミタなんかなんでもいいことになる
ただの文字コードの羅列だからな
CRである必要もないしLFである必要もない
そもそもキミラはアホなこといってるワケ
項目のデリミタにカンマつかったり水平タブ使ったりする
行のデリミタだってなんでもいい
バカはホント困るわぁ
430デフォルトの名無しさん
2018/06/27(水) 02:30:43.48ID:ulOW8GiO >>429
だから決めだけの問題だから何でもいい。
ASCIIという文字コードの規約の問題。
実際にEBCDICは CR でも LF でもない制御コードを別途改行コードとして用意した。
ASCII については規格の策定時から LF を押す国際派(ISO)と CR+LF を押す国内派(ANS)が対立していて一意に決まってない。
だから決めだけの問題だから何でもいい。
ASCIIという文字コードの規約の問題。
実際にEBCDICは CR でも LF でもない制御コードを別途改行コードとして用意した。
ASCII については規格の策定時から LF を押す国際派(ISO)と CR+LF を押す国内派(ANS)が対立していて一意に決まってない。
431デフォルトの名無しさん
2018/06/27(水) 09:37:29.05ID:5XsMHgY7 もともとテレタイプ前提の文字コードだからなあ
432デフォルトの名無しさん
2018/06/27(水) 15:41:13.36ID:2dfKv2YD 文字の話しろ
433デフォルトの名無しさん
2018/06/27(水) 15:48:44.41ID:EKUkk/oX いや文字コードの話するスレだろ
434デフォルトの名無しさん
2018/06/27(水) 18:10:34.52ID:rSBeNI25 CR/LFは文字じゃないのか……(驚愕)
435デフォルトの名無しさん
2018/06/27(水) 21:08:46.77ID:ulOW8GiO 制御コードであって文字ではないな。
少なくともASCIIとUnicodeでは。
少なくともASCIIとUnicodeでは。
436デフォルトの名無しさん
2018/06/27(水) 22:13:49.89ID:5OUSIXAr 制御文字のコードです
437デフォルトの名無しさん
2018/06/27(水) 22:58:53.48ID:+kEwaWuV >>420
その後に書いてある「I'm told that the ASCII committee changed the name of character 0x0A to "newline" around 1996, so the confusion level has been raised even higher.」
ってどういうことなんだろう?
ASCII委員会が1996年頃に0x0Aの名前をnewlineに変更して混乱が深まった?
ASCIIって1986年が最終改訂じゃないの?
その後に書いてある「I'm told that the ASCII committee changed the name of character 0x0A to "newline" around 1996, so the confusion level has been raised even higher.」
ってどういうことなんだろう?
ASCII委員会が1996年頃に0x0Aの名前をnewlineに変更して混乱が深まった?
ASCIIって1986年が最終改訂じゃないの?
438デフォルトの名無しさん
2018/06/28(木) 09:21:41.88ID:iSaREpik コンピュータの出力装置がゴルフボールの電動タイプライターだった時代、
例えば「アンダーライン入りの文字」を打つ時は、普通に文字を打って、
「ラインフィードの無いキャリッジリターン」をやって、
アンダーラインだけを打っていたのだと思う。
すると、キャリッジリターンには、ラインフィードが付く場合と付かない
場合があり、両者は明確に区別できなければならないはず。
ASCIIコードが制定された時代から考えると、改行コードが「CR/LF」
になったのは、そうゆう趣旨かな?と思う。
例えば「アンダーライン入りの文字」を打つ時は、普通に文字を打って、
「ラインフィードの無いキャリッジリターン」をやって、
アンダーラインだけを打っていたのだと思う。
すると、キャリッジリターンには、ラインフィードが付く場合と付かない
場合があり、両者は明確に区別できなければならないはず。
ASCIIコードが制定された時代から考えると、改行コードが「CR/LF」
になったのは、そうゆう趣旨かな?と思う。
439デフォルトの名無しさん
2018/06/28(木) 09:47:22.60ID:/fqEtI/z >>438
キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは?
バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ
キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは?
バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ
440デフォルトの名無しさん
2018/06/28(木) 11:06:58.11ID:5Es+lqIV BOMとかUTF-8Nってなんですか?
441デフォルトの名無しさん
2018/06/28(木) 12:37:34.87ID:iSaREpik >>439
なるほど。ありがとう。
なるほど。ありがとう。
442デフォルトの名無しさん
2018/06/28(木) 12:46:09.81ID:4/XCwkvc unicodeになって重ね打ち的な概念復活してきてね?
443デフォルトの名無しさん
2018/06/28(木) 15:12:27.72ID:LwHbkD+y >>439
重ね打ちをしたくないところはスペースを使えばいい
>コンピュータの出力装置がゴルフボールの電動タイプライターだった時代
スペースは何も印字せずに印字位置を一文字分進めるのであって
その位置の文字を空白で置き換えたり
その位置に空白を挿入するのではなかったのだから
昔読んだ本に、重ね打ちのためにバックスペースを使っている文書を
バックスペースを使えないプリンターでも重ね打ちできるように
変換するプログラムが載っていた
詳細は忘れたけど、CRとスペースを使うのだったと思う
>>438
それだと行頭に戻る機能だけをCRとして用意する理由にはなっても
行頭に戻る機能をLFに持たせない理由にはならないのではないか?
行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
重ね打ちをしたくないところはスペースを使えばいい
>コンピュータの出力装置がゴルフボールの電動タイプライターだった時代
スペースは何も印字せずに印字位置を一文字分進めるのであって
その位置の文字を空白で置き換えたり
その位置に空白を挿入するのではなかったのだから
昔読んだ本に、重ね打ちのためにバックスペースを使っている文書を
バックスペースを使えないプリンターでも重ね打ちできるように
変換するプログラムが載っていた
詳細は忘れたけど、CRとスペースを使うのだったと思う
>>438
それだと行頭に戻る機能だけをCRとして用意する理由にはなっても
行頭に戻る機能をLFに持たせない理由にはならないのではないか?
行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
444デフォルトの名無しさん
2018/06/28(木) 16:20:32.60ID:FdbC2U6h escシーケンスでも改行せずに行頭に戻したり出来たからな
445デフォルトの名無しさん
2018/06/28(木) 16:21:52.50ID:FdbC2U6h >当時は意味があったのかも知れないけど
紙の排出に使われてたぞ
紙の排出に使われてたぞ
446デフォルトの名無しさん
2018/06/28(木) 18:55:39.46ID:wMlREDKw447デフォルトの名無しさん
2018/06/28(木) 23:48:15.68ID:d1dmwFto UTF-8Nというのは
だれかがテキトーにつけたUnicodeのエンコードの名前
先に結論をいうとUTF-8NはBOMついてないUTF-8ということらしいからな
さらいえばUTF-8にBOMつける意味はほとんどない
とりあえず概要だけ書いといてやろう
BOMというのは、符号単位のオクテットの並びが
リトルエディアンかビッグエンディアンか識別するためにファイルの先頭にマークされる
ちなみにそれぞれのエンコードの符号単位はこんな感じなる
UTF-8:1つのオクテット
UTF-16:2つのオクテット
UTF-32:4つのオクテット
つまり、UTF-8ではそんなマークつけても意味がない
オクテットが1つしかないからな、並びなんか関係ない
2つ以上の場合、オクテットの順序がリトルエディアンかビッグエンディアンかで
数値の表現のされかたが変わる
CISC系のチップだと数値の表現はリトルエンディアンが多い
RISC系のチップだと数値の表現はビッグエンディアンが多い
つまり、CISC系のチップでリトルエディアンで保存されたファイルなら
エンディアンを気にせずにファイルに保存された数値をそのまま読むことができる
しかしビッグエンディアンなら一旦オクテットの並びを逆転させてから
数値を読みとる必要がある
RISC系のチップならその逆になる
分かった?
だれかがテキトーにつけたUnicodeのエンコードの名前
先に結論をいうとUTF-8NはBOMついてないUTF-8ということらしいからな
さらいえばUTF-8にBOMつける意味はほとんどない
とりあえず概要だけ書いといてやろう
BOMというのは、符号単位のオクテットの並びが
リトルエディアンかビッグエンディアンか識別するためにファイルの先頭にマークされる
ちなみにそれぞれのエンコードの符号単位はこんな感じなる
UTF-8:1つのオクテット
UTF-16:2つのオクテット
UTF-32:4つのオクテット
つまり、UTF-8ではそんなマークつけても意味がない
オクテットが1つしかないからな、並びなんか関係ない
2つ以上の場合、オクテットの順序がリトルエディアンかビッグエンディアンかで
数値の表現のされかたが変わる
CISC系のチップだと数値の表現はリトルエンディアンが多い
RISC系のチップだと数値の表現はビッグエンディアンが多い
つまり、CISC系のチップでリトルエディアンで保存されたファイルなら
エンディアンを気にせずにファイルに保存された数値をそのまま読むことができる
しかしビッグエンディアンなら一旦オクテットの並びを逆転させてから
数値を読みとる必要がある
RISC系のチップならその逆になる
分かった?
448デフォルトの名無しさん
2018/06/29(金) 03:04:36.82ID:8Q0GtZXS わかんない。
なんで他のシステムで読む可能性のあるファイルなのに
フォーマットを決めないの?
なんで他のシステムで読む可能性のあるファイルなのに
フォーマットを決めないの?
449デフォルトの名無しさん
2018/06/29(金) 09:04:53.35ID:iuHQPsKC >>443
> 行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
例えば、ゴルフボールで次のようにタイプすることを考えてみる。(□はスペース)
□□□□□□□AA
□□□□□□□AA
□□□□□□□AA「CRの無いLF」「BS」「BS」AA
と打つと、行頭に戻すよりも速く打てると思うが。
> 行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
例えば、ゴルフボールで次のようにタイプすることを考えてみる。(□はスペース)
□□□□□□□AA
□□□□□□□AA
□□□□□□□AA「CRの無いLF」「BS」「BS」AA
と打つと、行頭に戻すよりも速く打てると思うが。
450デフォルトの名無しさん
2018/06/29(金) 09:11:34.75ID:pXG1OaDl CISC RISC って今は無意味だしエンディアンとは関係ない
関係あると思うのは知ってるCPUが少ないだけかと
あと上で重ね打ちが昔の話みたいに言ってるけど
man使ったことないの?
端末によるけどたいていアンダーラインがつくよ
関係あると思うのは知ってるCPUが少ないだけかと
あと上で重ね打ちが昔の話みたいに言ってるけど
man使ったことないの?
端末によるけどたいていアンダーラインがつくよ
451デフォルトの名無しさん
2018/06/29(金) 09:17:15.33ID:pXG1OaDl452デフォルトの名無しさん
2018/06/29(金) 11:08:54.85ID:95WXFXv0 BOMの有無でCSVをexcelに読ませる際に文字化けするんだよね
453デフォルトの名無しさん
2018/06/29(金) 11:50:23.53ID:Uc21CWyX そういう仕様だったから、ってのは何の考察にもなってない。
人類が争いをやめないのはそういう仕様になってるから。
人類が争いをやめないのはそういう仕様になってるから。
454デフォルトの名無しさん
2018/06/29(金) 15:14:45.43ID:C6H9lGIq >>450
>(manでは)端末によるけどたいていアンダーラインがつくよ
manでアンダーラインがつかないと言っている人はいないし、昔は
>バックスペースで1文字分戻ってアンダーラインを打ったり
>文字を二度打ちして太字にしたりしてた
というのとは別の話だろ
>(manでは)端末によるけどたいていアンダーラインがつくよ
manでアンダーラインがつかないと言っている人はいないし、昔は
>バックスペースで1文字分戻ってアンダーラインを打ったり
>文字を二度打ちして太字にしたりしてた
というのとは別の話だろ
455デフォルトの名無しさん
2018/06/29(金) 15:35:26.60ID:C6H9lGIq456デフォルトの名無しさん
2018/06/29(金) 16:16:27.86ID:kXqQNYVA457デフォルトの名無しさん
2018/06/29(金) 22:19:47.60ID:jsqIPRMd ちょっと関係ないがGoogle翻訳では改行は%0Aだね。
HTTP関連の改行コードはCRLFが多いと思うんだけど,珍しい。
HTTP関連の改行コードはCRLFが多いと思うんだけど,珍しい。
458デフォルトの名無しさん
2018/06/29(金) 22:36:32.85ID:8Q0GtZXS そこはhttp関係ないじゃん
459デフォルトの名無しさん
2018/06/29(金) 23:08:44.45ID:sSTEuPuw むしろフォーマットがきまってる
リトルエンディアンの形式でもいいし
ビッグエンディアンの形式でもいいというフォーマットだからな
構成システムがリトルエンディアンの計算機が多い場合、リトルエンディアンで扱う方が有利
当然、構成システムがビッグエンディアンの計算機が多い場合、ビッグエンディアンで扱う方が有利になる
後処理の計算機のリソース消費量を減らすために先にいちいち毎回エンディアン変換するのもムダだしな
ちなみにネットワークのプロトコルの標準では歴史的な事情があって
ほぼ暗黙でビッグエンディアンになってる
ドキュメントにエンディアンが記載されてなければ
ビッグエンディアンとみなしてほぼ問題ない
リトルエンディアンの形式でもいいし
ビッグエンディアンの形式でもいいというフォーマットだからな
構成システムがリトルエンディアンの計算機が多い場合、リトルエンディアンで扱う方が有利
当然、構成システムがビッグエンディアンの計算機が多い場合、ビッグエンディアンで扱う方が有利になる
後処理の計算機のリソース消費量を減らすために先にいちいち毎回エンディアン変換するのもムダだしな
ちなみにネットワークのプロトコルの標準では歴史的な事情があって
ほぼ暗黙でビッグエンディアンになってる
ドキュメントにエンディアンが記載されてなければ
ビッグエンディアンとみなしてほぼ問題ない
460デフォルトの名無しさん
2018/06/29(金) 23:10:02.53ID:sSTEuPuw ちなみにキミラみたいな貧乏人が使ってるPCは
ほとんどリトルエンディアンになる
ほとんどリトルエンディアンになる
461デフォルトの名無しさん
2018/06/30(土) 00:16:14.33ID:I+9paw5R やっぱり今時半角カタカナ使う人にはアレな人が多いのか
462デフォルトの名無しさん
2018/06/30(土) 01:04:57.77ID:2NGdD93t463デフォルトの名無しさん
2018/06/30(土) 03:46:45.67ID:O2H7A6pY464デフォルトの名無しさん
2018/06/30(土) 04:38:43.11ID:8S9cJyih やっぱりユニコードが諸悪の根源
あれが入って来てからコンピュータが扱いづらくなった
日本はSJISに統一しよう
あれが入って来てからコンピュータが扱いづらくなった
日本はSJISに統一しよう
465デフォルトの名無しさん
2018/06/30(土) 06:04:05.89ID:tYfB6W3t Unicode程度でコンピューターを扱いずらくなる脳味噌って……同情するわ。
466デフォルトの名無しさん
2018/06/30(土) 13:06:02.67ID:QAvD/WKt エンディアン関係ないUTF-8が一番良いな
467デフォルトの名無しさん
2018/06/30(土) 13:32:27.92ID:cCXC0XvW UTF-8 はバイト列を見て文字がわかりにくいのが難点
468デフォルトの名無しさん
2018/06/30(土) 13:49:23.03ID:O2H7A6pY >>467
なんで?
なんで?
>>464
最初から 32 ビットにしなかったのが問題でしたね
最初から 32 ビットにしなかったのが問題でしたね
470デフォルトの名無しさん
2018/06/30(土) 18:58:11.39ID:cCXC0XvW >>468
うーん、いやあ、あらためて考えると単に分かりづらいと思い込んでる
だけだったかも。JISX0208 の文字って3バイトになるでしょ。
あの 3バイトずつになるのがどうも慣れないだけだった。467 は撤回するよ
うーん、いやあ、あらためて考えると単に分かりづらいと思い込んでる
だけだったかも。JISX0208 の文字って3バイトになるでしょ。
あの 3バイトずつになるのがどうも慣れないだけだった。467 は撤回するよ
471デフォルトの名無しさん
2018/06/30(土) 20:27:41.69ID:ozTCpxdq BOMでエンディアンが規定できるからな
そのようにフォーマットできまってる
数値の読みとりかたも一意に定まる
どっちでもいいというワケではない
バカはホント困るわぁ
つまり
リトルエンディアンで2つ以上のオクテットがあるのに
先頭にBOM入れないヤツはゴミクズといえる
Javaのバイトコードに CAFE BABE が入ってないぐらいお話にならない
ビッグエンディアンならBOMなくてもオレはよいとしようと考える
そのようにフォーマットできまってる
数値の読みとりかたも一意に定まる
どっちでもいいというワケではない
バカはホント困るわぁ
つまり
リトルエンディアンで2つ以上のオクテットがあるのに
先頭にBOM入れないヤツはゴミクズといえる
Javaのバイトコードに CAFE BABE が入ってないぐらいお話にならない
ビッグエンディアンならBOMなくてもオレはよいとしようと考える
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 習政権、高市首相への態度硬化 台湾有事発言で連日非難 中国 ★11 [ぐれ★]
- 日本損失1.7兆円に修正 中国渡航自粛の影響試算 [蚤の市★]
- NY円、一時1ユーロ=180円台まで下落…1999年のユーロ導入以来初 [蚤の市★]
- 国内ホテル、既にキャンセルも 訪日客関連業界、事態見守る ★3 [蚤の市★]
- 【外交】日中関係悪化、長期化の様相 2012年には自動車輸出80%減も ロイター★3 [1ゲットロボ★]
- 「どうしようもない」 ため息つくアジアの玄関口 中国の訪日自粛で−福岡市 [蚤の市★]
- 【実況】博衣こよりのえちえち朝こよ🧪 ★2
- 【実況】博衣こよりのえちえち朝こよ🧪
- カカロット、腰痛い
- 【超悲報】中国への武力行使、世論調査で「賛成」「どちらかといえば賛成」48.8% 「反対」「どちらかといえば反対」の44.2%を上回る [314039747]
- 【!?】高市早苗「靖国神社電撃参拝プラン」浮上!これもう戦争だろ… [481941988]
- 中国「高市が頭を下げて謝罪しない限り、絶対に許さない」 [329329848]
