プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 http://mevius.5ch.net/test/read.cgi/tech/1516629503/
探検
文字コード総合スレ Part12
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2018/12/17(月) 16:48:24.47ID:Pfqpaohb551デフォルトの名無しさん
2021/02/21(日) 02:25:03.18ID:SyjwfUNV >>550
そういえばUnicode上の点字はなぜか8個の点で例示してあり、実際256パターンある。
点字のUnucode化? 8bitで十分かは知らんけどw
でも8個以上は指で触って読むのが難しいかもしれない。
そういえばUnicode上の点字はなぜか8個の点で例示してあり、実際256パターンある。
点字のUnucode化? 8bitで十分かは知らんけどw
でも8個以上は指で触って読むのが難しいかもしれない。
552デフォルトの名無しさん
2021/02/21(日) 05:02:36.24ID:x7XX42Aa553デフォルトの名無しさん
2021/02/21(日) 05:15:52.00ID:kbkbRMiR554デフォルトの名無しさん
2021/02/21(日) 05:33:13.41ID:0HHdBuLy テキストモードという概念はOSというよりプログラミング言語じゃないかな。
>>553
テキストモード(正式にはクックドモードcooked mode/ローモード raw mode)は Micro Soft 社限定のような気が
テキストモード(正式にはクックドモードcooked mode/ローモード raw mode)は Micro Soft 社限定のような気が
556デフォルトの名無しさん
2021/02/21(日) 14:27:37.46ID:GfLXclnP Terminal mode
https://en.wikipedia.org/wiki/Terminal_mode
A terminal mode is one of a set of possible states of a terminal or pseudo terminal character device in Unix-like systems and determines how characters written to the terminal are interpreted.
In cooked mode data is preprocessed before being given to a program, while raw mode passes the data as-is to the program without interpreting any of the special characters.
https://en.wikipedia.org/wiki/Terminal_mode
A terminal mode is one of a set of possible states of a terminal or pseudo terminal character device in Unix-like systems and determines how characters written to the terminal are interpreted.
In cooked mode data is preprocessed before being given to a program, while raw mode passes the data as-is to the program without interpreting any of the special characters.
>>556
thx
thx
558デフォルトの名無しさん
2021/02/21(日) 20:28:19.64ID:x7XX42Aa たぶん、ascii・テキスト伝送は、Microsoft の規格だろ
基本、データはバイナリしかない。
バイナリを送っているだけ
それを、バイナリかテキストなのか、2種類に分けた
データベースと同じ。
バイナリしかないのに、各列を、バイナリ・テキスト・数値などに分類してる
基本、データはバイナリしかない。
バイナリを送っているだけ
それを、バイナリかテキストなのか、2種類に分けた
データベースと同じ。
バイナリしかないのに、各列を、バイナリ・テキスト・数値などに分類してる
559デフォルトの名無しさん
2021/02/22(月) 03:41:51.59ID:g4xweyOw Unix の raw-mode とういのはバイナリとかASCII とかじゃくて入力されたキーボードの文字を生のまま受け取るモード。
たとえばリターンキーを押すと 0x0D がバックスペースを押すと 0x08 がバイト単位でそのまま渡される。実際のコードは端末次第。
cooked-mode というのは端末の設定に従って行単位でバッファしながら入力を加工するモード。
端末設定で「改行文字入力」が 0x0D に設定されていて、キーボードから 0x0D が入力されたら
改行の入力とみなしてunixの内部的な改行 0x0A に変換して、それまでのバッファを渡す。
端末設定で「前の一文字削除」が 0x08 に設定されていて、キーボードから 0x08 がきたらバッファー内の最後の一文字を削除する。
Ctrl-C で割り込み中断とかも cooked の機能。
たとえばリターンキーを押すと 0x0D がバックスペースを押すと 0x08 がバイト単位でそのまま渡される。実際のコードは端末次第。
cooked-mode というのは端末の設定に従って行単位でバッファしながら入力を加工するモード。
端末設定で「改行文字入力」が 0x0D に設定されていて、キーボードから 0x0D が入力されたら
改行の入力とみなしてunixの内部的な改行 0x0A に変換して、それまでのバッファを渡す。
端末設定で「前の一文字削除」が 0x08 に設定されていて、キーボードから 0x08 がきたらバッファー内の最後の一文字を削除する。
Ctrl-C で割り込み中断とかも cooked の機能。
560デフォルトの名無しさん
2021/02/22(月) 17:39:30.14ID:bGamQ1pv >>533
>世に出てるブラウザの殆どはcharset=Shift_JISな文書をWindows-31Jとして解釈するだろうから
ちなiOSのSafariはそうじゃないっぽい。macOSの方はそうなんだが。
とりあえずiPhone買って、付いてきたSafariでウェブを見る、みたいなユーザーは多いんじゃない
かと思うんだが.. というわけで「殆ど」という言い方はできないかもしれない。
>世に出てるブラウザの殆どはcharset=Shift_JISな文書をWindows-31Jとして解釈するだろうから
ちなiOSのSafariはそうじゃないっぽい。macOSの方はそうなんだが。
とりあえずiPhone買って、付いてきたSafariでウェブを見る、みたいなユーザーは多いんじゃない
かと思うんだが.. というわけで「殆ど」という言い方はできないかもしれない。
561デフォルトの名無しさん
2021/02/22(月) 20:36:22.30ID:DwYM6h5J >>551
バイナリコードに親しんでいる人が点字を覚えるなら従来の6点の点字より8点の点字で
そのままバイナリコードを表した方が分かりやすいって人はいるだろうね
昔は穿孔テープの穴を見て何が書いてあるか分かる人は多かったようだし
バイナリコードに親しんでいる人が点字を覚えるなら従来の6点の点字より8点の点字で
そのままバイナリコードを表した方が分かりやすいって人はいるだろうね
昔は穿孔テープの穴を見て何が書いてあるか分かる人は多かったようだし
562デフォルトの名無しさん
2021/02/23(火) 03:23:29.15ID:DHJgW+88 後から穴の数が増えたのも出てくるけど、もともとの紙テープは5穴なので10分も練習すれば誰でも読めた。ただし会社ごとに個別に覚える必要があった。
このスレ的に言えば、各社バラバラだった5穴、6穴の規格を統一するために作られた7穴の共通規格が ASCII の始まり。
このスレ的に言えば、各社バラバラだった5穴、6穴の規格を統一するために作られた7穴の共通規格が ASCII の始まり。
563デフォルトの名無しさん
2021/02/23(火) 08:57:17.31ID:I88lzdP8 もうさ32ドット×32ドットぐらいの点字を作りなよ
そうすりゃかなりの文字を表現できるやろ?
そうすりゃかなりの文字を表現できるやろ?
564デフォルトの名無しさん
2021/02/23(火) 12:06:09.45ID:waG/I9Zl 32x32でいけると思ったのですが、森羅万象を表現するに全然足りないことが判明したので、サロゲート点字を導入します
565デフォルトの名無しさん
2021/02/23(火) 16:52:17.61ID:Z5ZYenTn 有史から遠い未来まで全人類の顔を絵文字として登録できる、という前提で文字コード規格を作らないとダメでしょ。
566デフォルトの名無しさん
2021/02/23(火) 18:23:04.03ID:1/jlbQjA 漢字には一画のぞくとか、わざと間違えるとかいう字もあるからなあ
567デフォルトの名無しさん
2021/02/24(水) 15:37:09.38ID:N1ZJD0Pr 「信長の野望」の家康画像みたいに元服前の顔、青年期の顔、老年期の顔をそれぞれ登録するようにしたらますます文字コードが増える。
568デフォルトの名無しさん
2021/02/24(水) 15:43:59.66ID:aaBs9O4Y 同じ顔は同一の文字コードにすればOK
569デフォルトの名無しさん
2021/02/24(水) 16:00:01.95ID:aweY/mLc570デフォルトの名無しさん
2021/02/24(水) 16:13:32.49ID:N1ZJD0Pr IPv6では宇宙誕生から消滅に至るまでの全宇宙のデバイスにIPアドレスを割り当てることはできない。勝手に最大量を決めてはダメってことだ。
571デフォルトの名無しさん
2021/02/24(水) 16:25:49.69ID:aaBs9O4Y >>569
OSじゃなくてハードウェアの問題
まずSJISの文字コード自体はMicrosoftとほか団体が協力して作ったが
SJISという文字コードと基本的な文字集合を定義したが、
当時のOSであるMS-DOSには文字集合という概念そのものがなかった
そもそもMS-DOSにはフォントというものが搭載されておらず
MS-DOSは単にSJISの文字コードに対応した出力機能を備えていたに過ぎない
そしてその文字コードに対応した文字(つまりフォント)はハードウェアの漢字ROMに搭載されていた
当時はPCの速度が遅く、ハードウェアにフォントを搭載しなければ
日本語はまともな速度が出なかった
そして漢字ROMを作っていたのはNECなどのパソコン屋。拡張領域に文字を入れることで
NEC「うちのパソコンは、こういう漢字にも対応していますよ。」ということが出来た
例えば PC-9801の初代は漢字ROMボードを搭載せず、
・JIS第一水準漢字ROMボード
・JIS第ニ水準漢字ROMチップ
・どちらにも含まれていない拡張漢字ROMチップ
がそれぞれ別売りされていた
OSじゃなくてハードウェアの問題
まずSJISの文字コード自体はMicrosoftとほか団体が協力して作ったが
SJISという文字コードと基本的な文字集合を定義したが、
当時のOSであるMS-DOSには文字集合という概念そのものがなかった
そもそもMS-DOSにはフォントというものが搭載されておらず
MS-DOSは単にSJISの文字コードに対応した出力機能を備えていたに過ぎない
そしてその文字コードに対応した文字(つまりフォント)はハードウェアの漢字ROMに搭載されていた
当時はPCの速度が遅く、ハードウェアにフォントを搭載しなければ
日本語はまともな速度が出なかった
そして漢字ROMを作っていたのはNECなどのパソコン屋。拡張領域に文字を入れることで
NEC「うちのパソコンは、こういう漢字にも対応していますよ。」ということが出来た
例えば PC-9801の初代は漢字ROMボードを搭載せず、
・JIS第一水準漢字ROMボード
・JIS第ニ水準漢字ROMチップ
・どちらにも含まれていない拡張漢字ROMチップ
がそれぞれ別売りされていた
572デフォルトの名無しさん
2021/02/24(水) 16:32:05.41ID:aaBs9O4Y 日本人が作る日本人のためのパソコンで
日本で使われている漢字が表示できないのは
マイナスでしかない。だからパソコン屋は
当初のSJISで定義されていた基本的な文字集合を超えた
文字を漢字ROMボードとして提供するしか道はなかった
そしてWindowsの時代となりフォントがOSに搭載されるようになってから
各メーカーが拡張していた漢字を相互運用できなくなるのは困るため
Microsoftは各拡張SJISを統合して改めてCP932として標準化した
もともとSJISを作ったのはMicrosoftなわけで
WindowsのSJISは、初期のSJISの正統後継といえる
日本で使われている漢字が表示できないのは
マイナスでしかない。だからパソコン屋は
当初のSJISで定義されていた基本的な文字集合を超えた
文字を漢字ROMボードとして提供するしか道はなかった
そしてWindowsの時代となりフォントがOSに搭載されるようになってから
各メーカーが拡張していた漢字を相互運用できなくなるのは困るため
Microsoftは各拡張SJISを統合して改めてCP932として標準化した
もともとSJISを作ったのはMicrosoftなわけで
WindowsのSJISは、初期のSJISの正統後継といえる
573デフォルトの名無しさん
2021/02/24(水) 17:13:57.11ID:O/RKRWyd PC-98シリーズの漢字ROM、テキストVRAMはJISコードベースだ。SJISではない。
574デフォルトの名無しさん
2021/02/24(水) 18:38:57.51ID:CaexoUYp PC-98のMS-DOSでShift_JISのファイルを何も問題なく開けたけど
漢字ROMがJISだとするとファイルを開く時にどこかでShift_JISからJISに変換していたという事?
漢字ROMがJISだとするとファイルを開く時にどこかでShift_JISからJISに変換していたという事?
575デフォルトの名無しさん
2021/02/24(水) 18:44:43.54ID:zChO2spG 変換というかシフトしてる分を戻してるだけだな
576デフォルトの名無しさん
2021/02/25(木) 16:21:35.59ID:dtuEc+as 可変長で無限に文字を追加できる文字コードなると
全ての文字を実体参照で記録する形式にするしかないのでは?
全ての文字を実体参照で記録する形式にするしかないのでは?
577デフォルトの名無しさん
2021/02/25(木) 17:21:18.30ID:bCEhRyYb プレーンなgrepができなければ文字コード失格。
甲斐武田氏の家臣だけを抽出する正規表現クラス\p{KaiTakeda}みたいなのも使えなければダメ。
甲斐武田氏の家臣だけを抽出する正規表現クラス\p{KaiTakeda}みたいなのも使えなければダメ。
>>574
VRAM が JIS ベースだ、という話というだけであって、ファイルが S-JIS だろうが UTF-16 であろうがどーでもいい話かと
VRAM が JIS ベースだ、という話というだけであって、ファイルが S-JIS だろうが UTF-16 であろうがどーでもいい話かと
579デフォルトの名無しさん
2021/02/25(木) 19:53:40.28ID:d2pfH4ce JISとSJISとEUC-JPの文字コードは
比較的単純な計算で変換することが出来るから
パフォーマンスの影響も少なくメモリも食わない
Unicodeの場合は変換にテーブルが必要になるから
MS-DOSの時代ではちょっと困るだろうな
比較的単純な計算で変換することが出来るから
パフォーマンスの影響も少なくメモリも食わない
Unicodeの場合は変換にテーブルが必要になるから
MS-DOSの時代ではちょっと困るだろうな
580デフォルトの名無しさん
2021/02/26(金) 23:06:18.58ID:mLFL/iLf MS-DOS時代のテキストエディターで複数の文字コードに対応したものってあったんだろうか
581デフォルトの名無しさん
2021/02/27(土) 00:23:55.40ID:9B/eAMtf nemacsか
582デフォルトの名無しさん
2021/02/27(土) 03:48:22.68ID:8wUBQ4y1 単純計算だと非Unicode文字コード種ごとに128KBの変換テーブルが必要になる。
当時の揮発メモリに全部乗せたまま使うのは当然無理。LFUなりLRUなり使ってしのぐしかない。
当時の揮発メモリに全部乗せたまま使うのは当然無理。LFUなりLRUなり使ってしのぐしかない。
>>580
demacs/mule
demacs/mule
584デフォルトの名無しさん
2021/03/03(水) 00:32:39.49ID:Fut02B/b 日本のsc2って今休業中なのかな
Unicode 14のalphaでKana Extended-Aに文字突っ込まれてるけどコメントしなくていいのか
このままbetaに進むと変更が難しくなりそうだけど
Unicode 14のalphaでKana Extended-Aに文字突っ込まれてるけどコメントしなくていいのか
このままbetaに進むと変更が難しくなりそうだけど
585デフォルトの名無しさん
2021/03/04(木) 21:20:40.72ID:jw7hSq/n ASCIIの制御文字にエスケープ文字(0x1b)や
その他の字の区切りを表す制御文字があるのに
メールでもHTMLでも制御文字は使わずに0x20-0x7eの印字可能文字の一部を
エスケープ文字として使うようになったのはなぜなのか
その他の字の区切りを表す制御文字があるのに
メールでもHTMLでも制御文字は使わずに0x20-0x7eの印字可能文字の一部を
エスケープ文字として使うようになったのはなぜなのか
586デフォルトの名無しさん
2021/03/04(木) 22:12:23.62ID:BThS1gIP ここで言うHTMLのエスケープ文字ってどれのこと?
587デフォルトの名無しさん
2021/03/04(木) 22:40:28.52ID:jw7hSq/n >>586
タグを示す<>や実体参照で使う&;
タグを示す<>や実体参照で使う&;
588デフォルトの名無しさん
2021/03/04(木) 23:10:32.38ID:BThS1gIP その手の手書きする奴は図形文字じゃないと逆に不便じゃね?
589デフォルトの名無しさん
2021/03/04(木) 23:54:15.04ID:jw7hSq/n エスケープ文字に制御文字を使うと手で入力するのが面倒になるし
かといって図形文字を使うと文章中の文字と混同しないように注意しないといけなくなるから難しいか。
SJISの0x5c問題もこれが原因だよね。
かといって図形文字を使うと文章中の文字と混同しないように注意しないといけなくなるから難しいか。
SJISの0x5c問題もこれが原因だよね。
590デフォルトの名無しさん
2021/03/05(金) 02:36:48.86ID:ZMKDWzIT 一言で言えば既存のテキストエディターで書けることを重視したから。
専用のハイパーテキスト用ツールは昔からあったけど不便だった。
専用のハイパーテキスト用ツールは昔からあったけど不便だった。
591デフォルトの名無しさん
2021/03/05(金) 17:53:33.38ID:Zdg3nLGk ISO系(特にUnicode)が理解できなさすぎて辛い・・・・・・
・古い規格は数万払って買えw
・原文英語だけど頑張って読めw
・1993年の初版からいーっぱい改定して規格書いーっぱいあるでw
・JIS 「こうやで(決してISO版原文の解説ではない)」
・UnicodeとISO/IEC 10646で同じ用語使ってますw
・規格書で定義されてない用語を平気で使いますw
・規格書にUCS-2, UCS-4の定義, 解説がない
・文献によってコードポイントの表記が微妙に違う
UCS-4はU+00000000のからなのか, U+0000からなのか?w
・UCS-2/4は符号化文字集合だぞwあっ、やっぱり文字符号化方式だぞw
・CJK 「俺らも理解してくれよなw」
・日本人 「Unicodeが理解できん?こうやで!^^(ソースなし!w)」
おれはUnicodeの理解を諦めたぞ・・・・・・
・古い規格は数万払って買えw
・原文英語だけど頑張って読めw
・1993年の初版からいーっぱい改定して規格書いーっぱいあるでw
・JIS 「こうやで(決してISO版原文の解説ではない)」
・UnicodeとISO/IEC 10646で同じ用語使ってますw
・規格書で定義されてない用語を平気で使いますw
・規格書にUCS-2, UCS-4の定義, 解説がない
・文献によってコードポイントの表記が微妙に違う
UCS-4はU+00000000のからなのか, U+0000からなのか?w
・UCS-2/4は符号化文字集合だぞwあっ、やっぱり文字符号化方式だぞw
・CJK 「俺らも理解してくれよなw」
・日本人 「Unicodeが理解できん?こうやで!^^(ソースなし!w)」
おれはUnicodeの理解を諦めたぞ・・・・・・
592デフォルトの名無しさん
2021/03/06(土) 02:52:41.34ID:VRCzgeXN まず unicode と ISO10646 は建前上は別の規格で用語も適用範囲も一致していないと理解することから。
593デフォルトの名無しさん
2021/03/06(土) 08:51:58.30ID:Q5bee5g2594デフォルトの名無しさん
2021/03/06(土) 11:40:26.99ID:6TyCcGYh Unicode公式 「ISOのUCS-4はUTF-32と同義語なんやでw」
おれ 「UCSは符号化文字集合でUTF-32は符号化方式では?ムキーーーーーーッ??!」
つらい
全てを投げ出して北海道グルメ旅行したい
おれ 「UCSは符号化文字集合でUTF-32は符号化方式では?ムキーーーーーーッ??!」
つらい
全てを投げ出して北海道グルメ旅行したい
595デフォルトの名無しさん
2021/03/06(土) 12:58:55.62ID:VRCzgeXN >>594
違うねん。
ISO10646 でも UCS-4 と UTF-32 は同じ意味で符号化方式やねん。
UCS: 符号化文字集合
UCS-4: 符号化方式
UTF-32: 符号化方式
ISO/IEC 10646:2017 の定義だと
9.4 UTF-32 (UCS-4)
UTF-32 (or UCS-4) is the UCS encoding form that assigns each UCS
scalar value to a single unsigned 32-bit code unit. The terms UTF-32
and UCS-4 can be used interchangeably to designate this encoding form.
違うねん。
ISO10646 でも UCS-4 と UTF-32 は同じ意味で符号化方式やねん。
UCS: 符号化文字集合
UCS-4: 符号化方式
UTF-32: 符号化方式
ISO/IEC 10646:2017 の定義だと
9.4 UTF-32 (UCS-4)
UTF-32 (or UCS-4) is the UCS encoding form that assigns each UCS
scalar value to a single unsigned 32-bit code unit. The terms UTF-32
and UCS-4 can be used interchangeably to designate this encoding form.
596デフォルトの名無しさん
2021/03/06(土) 15:26:58.97ID:6TyCcGYh 10646:2017だと明確に同義語として使われてたのか。
その版は持ってなくて中身確認できなかったから助かったわ
その版は持ってなくて中身確認できなかったから助かったわ
597デフォルトの名無しさん
2021/03/06(土) 15:41:25.54ID:6TyCcGYh マジで疲れた
UCS-4はUCSの部分集合だと思ってたけど実は違ったのかw
こんなことに悩んでたのかよクソすぎるw
UCS-4はUCSの部分集合だと思ってたけど実は違ったのかw
こんなことに悩んでたのかよクソすぎるw
598デフォルトの名無しさん
2021/03/06(土) 18:39:02.04ID:VRCzgeXN もしかして 10646:2020 を参照してん? なら UCS-4 という用語自体が過去の遺物扱いや。
10.4 UTF-32
UTF-32 is the UCS encoding form that assigns each UCS scalar value to a single unsigned 32-bit code unit.
NOTE — Former editions of this document included “UCS-4” as an alternate term synonymous with “UTF-32”. Use of the term “UCS-4” to refer to this encoding form is deprecated.
10.4 UTF-32
UTF-32 is the UCS encoding form that assigns each UCS scalar value to a single unsigned 32-bit code unit.
NOTE — Former editions of this document included “UCS-4” as an alternate term synonymous with “UTF-32”. Use of the term “UCS-4” to refer to this encoding form is deprecated.
599デフォルトの名無しさん
2021/03/07(日) 12:36:06.36ID:21gOPzKM あ、そこは見た
ただ10646:2020でいう「synonymous」が
どの程度の「同義」なのかが分からなかったけど
10646:2017を引用してくれたおかげで100%イコールなのが分かったわサンガツな
ただ10646:2020でいう「synonymous」が
どの程度の「同義」なのかが分からなかったけど
10646:2017を引用してくれたおかげで100%イコールなのが分かったわサンガツな
600デフォルトの名無しさん
2021/03/07(日) 12:38:04.56ID:21gOPzKM やっとこれでクソつまらん文字コードからC++の参考書に戻れる
やったぜ
やったぜ
601デフォルトの名無しさん
2021/03/07(日) 23:47:47.88ID:gN+mrqU2 UTF (Unicode Transformation Format)という言葉も昔の遺産だよね
今作り直すならUnicode Encoding SchemeでUES-8とかになるのかな
今作り直すならUnicode Encoding SchemeでUES-8とかになるのかな
602デフォルトの名無しさん
2021/03/08(月) 00:17:56.33ID:8d5Xwcwc ちゃうねん。もともと UTF の U は unicode じゃなくて UCS や。Universal の U。
603デフォルトの名無しさん
2021/03/08(月) 11:33:52.88ID:3+uDlPP2 文字コードという呼び方をなくして
文字シーケンスと言ったほうが良いと思う
1文字は最大8バイトで表現する
文字シーケンスと言ったほうが良いと思う
1文字は最大8バイトで表現する
604デフォルトの名無しさん
2021/03/08(月) 12:58:27.48ID:P3HygzNP EUCのU
605デフォルトの名無しさん
2021/03/08(月) 13:47:48.99ID:47hpvSbS >>602
おおっと、これは失礼しました
おおっと、これは失礼しました
606デフォルトの名無しさん
2021/03/08(月) 15:45:58.81ID:nvShaTc9 UTF-の後に続く数字は当初はバージョン番号のような意味だったのが
途中からビット数を表す意味に変わったようにも見える
途中からビット数を表す意味に変わったようにも見える
607デフォルトの名無しさん
2021/03/08(月) 23:38:40.10ID:ccXfg1Ko >>606
Unicodeの種別をUTF-なんとかと言い出したのは、1文字を16ビットで表現することに限界を感じたため。UTF-8は一番やりたくなかったけど、世界中の文字を切り替えて表現する方法は支持されなかったから、最小単位が8バイトのUTF-8が標準になった。
Unicodeの種別をUTF-なんとかと言い出したのは、1文字を16ビットで表現することに限界を感じたため。UTF-8は一番やりたくなかったけど、世界中の文字を切り替えて表現する方法は支持されなかったから、最小単位が8バイトのUTF-8が標準になった。
608デフォルトの名無しさん
2021/03/08(月) 23:41:28.57ID:ccXfg1Ko SJISのように2バイトで表現するキャラクタセットとの相性を重視している場合はUTF-16が使われる。
609デフォルトの名無しさん
2021/03/09(火) 09:45:27.84ID:p4cuNQqC >>607
UTF-8が標準になったのはUnix系の互換性の問題
多バイト固定すると、文字列が1バイト前提であるC言語とC言語で作られてる
Unixのソースコードの多くを修正する必要があった。
そのため互換性があるUTF-8が作られた。
UTF-8が標準になったのはUnix系の互換性の問題
多バイト固定すると、文字列が1バイト前提であるC言語とC言語で作られてる
Unixのソースコードの多くを修正する必要があった。
そのため互換性があるUTF-8が作られた。
610デフォルトの名無しさん
2021/03/09(火) 11:10:37.15ID:oV9GYLDS >>609
EUCを知ってますか?
EUCを知ってますか?
611デフォルトの名無しさん
2021/03/09(火) 11:13:42.05ID:p4cuNQqC612デフォルトの名無しさん
2021/03/09(火) 17:39:10.59ID:oV9GYLDS キャラクタセットは選ぶもの
613デフォルトの名無しさん
2021/03/09(火) 17:40:37.43ID:oV9GYLDS アスキー文字は1バイトで同じ文字コードにしたいのはあたりまえ
614デフォルトの名無しさん
2021/03/09(火) 17:41:09.24ID:oV9GYLDS UTF-16にこだわったのは欧米人
615デフォルトの名無しさん
2021/03/09(火) 17:53:03.04ID:JYZP+6rB616デフォルトの名無しさん
2021/03/09(火) 19:47:21.10ID:qz7mFwyh UTF-16はユニコードの文学的表現と、あわしろ氏が言ってた。
617デフォルトの名無しさん
2021/03/09(火) 19:49:34.87ID:N+Xx0u4G じゃあ間違いってことだな
618デフォルトの名無しさん
2021/03/09(火) 22:12:38.95ID:uPwAQTWz UTF-16 にこだわったわけじゃないだろ。
昔こだわってたのは16ビット固定長。
当時の非力なパソコンだと都合が良かった。
ワークステーションとか性能に余裕がある機械使ってる人たちから絶対に文字数足りなくなる阿呆仕様とか言われてたが、仕方なかった。
後に性能に余裕が出てきた時に既に16ビットでOSとかAPI設計・使用していたので、16ビット可変長を導入した。それが今のUTF-16。
昔こだわってたのは16ビット固定長。
当時の非力なパソコンだと都合が良かった。
ワークステーションとか性能に余裕がある機械使ってる人たちから絶対に文字数足りなくなる阿呆仕様とか言われてたが、仕方なかった。
後に性能に余裕が出てきた時に既に16ビットでOSとかAPI設計・使用していたので、16ビット可変長を導入した。それが今のUTF-16。
619デフォルトの名無しさん
2021/03/10(水) 23:22:37.08ID:rTwzo8YF ISO/IEC 8859-1前提で作られていたはずなのに
いつの間にかUTF-8に乗り換えようとしてる?とうに乗り換えた?
WWW(のHTTP)の世界
いつの間にかUTF-8に乗り換えようとしてる?とうに乗り換えた?
WWW(のHTTP)の世界
620デフォルトの名無しさん
2021/03/15(月) 00:38:41.86ID:nWbOihFX 0x7Fだけでなく0xFFがDELとして定義されていないのは
0x80-0xFFに文字が定義された時には既に紙テープは使われなくなっていたという事なのかな
0x80-0xFFに文字が定義された時には既に紙テープは使われなくなっていたという事なのかな
621デフォルトの名無しさん
2021/03/15(月) 08:07:57.71ID:GifvrUGq その紙テープとDELの話、機能的に必要だからそうしたというわけじゃないと思うがな。
DELは「削除する」文字なのに紙テープは「削除された」文字になるよね。
DELは「削除する」文字なのに紙テープは「削除された」文字になるよね。
622デフォルトの名無しさん
2021/03/15(月) 09:04:25.39ID:IkMjMWUP その 0x80-0xFF というのが 0xFF に文字を割当ててる ISO8859の時代ことなら、もう紙テープななんか使ってなかった。
それより古いの、例えば JISX0201 のカナとかの時代でもほぼ紙テープなんか使ってなかったけど 0xFF は未定義で文字は割当なかった。
それより古いの、例えば JISX0201 のカナとかの時代でもほぼ紙テープなんか使ってなかったけど 0xFF は未定義で文字は割当なかった。
623デフォルトの名無しさん
2021/03/16(火) 14:48:47.22ID:OdNNK18i 「削除する」というよりか「これは間違いだから無視してね」という印、みたいな感じ
624デフォルトの名無しさん
2021/03/16(火) 16:03:04.87ID:NeNdvqnK モールス信号は単音と長音の組み合わせだからビット表示みたいなもんかな
625デフォルトの名無しさん
2021/03/16(火) 21:56:06.00ID:fetr9hD4 へー、DELをバックスペースの意味で使うようになったのが後付けなのか。
https://ja.wikipedia.org/wiki/削除文字
https://ja.wikipedia.org/wiki/削除文字
626デフォルトの名無しさん
2021/03/18(木) 22:37:10.93ID:bBSRtLnn 制御文字はASCIIコードの最初を占めているのにCUIでのコマンドに使わないのはもったいないと思う。
昔は制御文字をコマンドとして使っていたんだから
例えばSMTPは制御文字のSOH STX ETX EOTをコマンドにしてもよかったのでは
昔は制御文字をコマンドとして使っていたんだから
例えばSMTPは制御文字のSOH STX ETX EOTをコマンドにしてもよかったのでは
627デフォルトの名無しさん
2021/03/19(金) 00:35:37.02ID:pLBLA8wx あのう…、素人がひとつお尋ねしたいのですけど、よろしいですか?
大昔からWindowsパソコンを使っていて
今までにエディタで書いたテキスト資産をたくさん持つ人が
これからもWindowsパソコンを使い続けると仮定するなら
新しく書くテキストデータの文字コードは何を使えば良いのでしょう?
従来どおりShift-JIS? それともUTF-8?
なお、テキストは書くだけではなく他人から貰ったデータを読むこともあります
大昔からWindowsパソコンを使っていて
今までにエディタで書いたテキスト資産をたくさん持つ人が
これからもWindowsパソコンを使い続けると仮定するなら
新しく書くテキストデータの文字コードは何を使えば良いのでしょう?
従来どおりShift-JIS? それともUTF-8?
なお、テキストは書くだけではなく他人から貰ったデータを読むこともあります
628デフォルトの名無しさん
2021/03/19(金) 00:37:01.06ID:pLBLA8wx ゴメンなさい、最後の一文は
コピペしてテキストをマージすることもある、の意です
コピペしてテキストをマージすることもある、の意です
629デフォルトの名無しさん
2021/03/19(金) 01:21:48.92ID:hh9Kt8XT Windowsは表面的にはシフトJISですが、内部はUTF-16です。
メモ帳がBOM付きUTF-8に対応したりとしているので、UTF-8でも特に問題ありません。
テキストエディタやOffice製品でSJISが使えなくなることは、想定しなくてもいいと思います。
メモ帳がBOM付きUTF-8に対応したりとしているので、UTF-8でも特に問題ありません。
テキストエディタやOffice製品でSJISが使えなくなることは、想定しなくてもいいと思います。
630デフォルトの名無しさん
2021/03/19(金) 01:23:29.57ID:hh9Kt8XT 日本語の世界でSJISがなくなることは想定しなくてよいという意味です。
631デフォルトの名無しさん
2021/03/19(金) 06:55:45.01ID:MDPOlxpG632デフォルトの名無しさん
2021/03/19(金) 07:01:30.18ID:pLBLA8wx633デフォルトの名無しさん
2021/03/19(金) 07:03:11.89ID:pLBLA8wx >>631
いや、絵文字は一生使うつもりがありませんw
いや、絵文字は一生使うつもりがありませんw
634デフォルトの名無しさん
2021/03/19(金) 07:53:48.58ID:/oetvOh6 自分自身が絵文字を使うかどうかは重要じゃなくて、他人の書いた絵文字を含む文書を劣化させずに保存できることが重要
>>631
絵文字は不要、誰が絵文字なんかを文字コードの中に押し込んだんだ?
絵文字は不要、誰が絵文字なんかを文字コードの中に押し込んだんだ?
636デフォルトの名無しさん
2021/03/19(金) 08:45:35.33ID:pPRPone1637デフォルトの名無しさん
2021/03/19(金) 09:58:34.93ID:n/AYlKWK638デフォルトの名無しさん
2021/03/19(金) 13:03:56.18ID:eiJMVgO4 最初にコード化したのは誰かって意味ならワープロメーカーとかじゃね?
unicodeに入れたのはgoogle。
その元になった絵文字セットのうちの1つを最初に作ったのはドコモ
unicodeに入れたのはgoogle。
その元になった絵文字セットのうちの1つを最初に作ったのはドコモ
639デフォルトの名無しさん
2021/03/19(金) 14:00:06.98ID:D6AA0Wwh MSが何を考えているか外からではわからないけど
S-JISは切り捨てる可能性があるんじゃないかな
S-JISは切り捨てる可能性があるんじゃないかな
640デフォルトの名無しさん
2021/03/19(金) 14:15:07.57ID:/oetvOh6641デフォルトの名無しさん
2021/03/19(金) 15:26:48.13ID:eiJMVgO4 >>633
macだとcuiでも絵文字使ってるプログラムが増えてて、見やすいしわりと便利よ
macだとcuiでも絵文字使ってるプログラムが増えてて、見やすいしわりと便利よ
642デフォルトの名無しさん
2021/03/19(金) 16:19:10.35ID:MDPOlxpG Powerlineとかのプログラミング用の絵文字
あれUnicodeに入れてくれないかな?
あれUnicodeに入れてくれないかな?
644デフォルトの名無しさん
2021/03/19(金) 17:45:59.37ID:hh9Kt8XT Unicodeの絵文字は全世界で使われているからね。
645デフォルトの名無しさん
2021/03/19(金) 17:46:52.40ID:hh9Kt8XT 日本の絵文字がベースだから、日本人っぽいものが多い。
646デフォルトの名無しさん
2021/03/19(金) 18:07:03.09ID:/oetvOh6647デフォルトの名無しさん
2021/03/19(金) 22:38:34.45ID:pLBLA8wx あのう…、皆さん色々ありがとうございます
それで…、結局のところ私は…、これから先テキストを新しく書いた時に
そのテキストデータの文字コードを何にして保存すれば良いのでしょうか?
それで…、結局のところ私は…、これから先テキストを新しく書いた時に
そのテキストデータの文字コードを何にして保存すれば良いのでしょうか?
648デフォルトの名無しさん
2021/03/19(金) 23:10:26.99ID:gtzZCHhj 何回も何回も裏切られてきたからな
一寸先は闇
UTFが優勢ではあるけど
何があるかわからん
一寸先は闇
UTFが優勢ではあるけど
何があるかわからん
>>647
BOM 付きUTF-8 でいいんじゃないでしょうか…
BOM 付きUTF-8 でいいんじゃないでしょうか…
650デフォルトの名無しさん
2021/03/20(土) 00:19:36.84ID:4rbcgKwq 異体字セレクタは無視可能だから>>643みたいな対比が重要な用途には向かん
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【中国外務省】日中関係悪化は高市氏に責任と名指しで非難… ★4 [BFU★]
- 日本行き空路49万件キャンセル 中国自粛呼びかけ 日本行きチケット予約の約32%に相当 ★2 [ぐれ★]
- 中国の局長は「両手をポケット」で対峙 宣伝戦で国民に示す [蚤の市★]
- 【中国局長】両国関係に「深刻な影響」 首相発言の撤回要求 [蚤の市★]
- 佳子さまがコロナ感染 [おっさん友の会★]
- 外務省局長は無言で厳しい表情…日中の高官協議終了か 高市首相“台湾”発言で中国が強硬対応 発言撤回求めたか…★3 [BFU★]
- 【悲報】靖国参拝を批判する中国に内政干渉するなと騒ぐネトウヨが中国の内紛に干渉する理由、誰にもわからない🥺 [616817505]
- 【実況】博衣こよりのえちえち歌枠🧪★2
- 【悲報】ネトウヨ「なんで高市が謝るんだよ!岡田が謝れ!😡」 [359965264]
- 【高市速報】日本人の3割「中国への武力行使に踏み切る必要がある」ANN世論調査 [931948549]
- 【雑談】暇人集会所part18
- エッヂ逝った?
