X



文字コード総合スレ part14
0001デフォルトの名無しさん
垢版 |
2023/03/03(金) 15:46:58.08ID:yKqwMGHT
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
 (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
 (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/
0695発達障害テスター
垢版 |
2024/04/23(火) 10:55:15.34ID:4WFWNNQf
🥳 UnicodeとUTF8をまったく別のものていうか、
UnicodeでUTF32の亜種のような気がする 
👤 ┐⁠(⁠‘⁠〜⁠`⁠;⁠)⁠┌
0696デフォルトの名無しさん
垢版 |
2024/04/23(火) 13:13:02.11ID:veCrNLlk
よく使う言葉を漢字1文字に割り当てるルールがあればよい
ウクライナ→浮など
同じ漢字の場合の勝ち負けルールも決めておく
0697ランベルト星人
垢版 |
2024/04/23(火) 16:35:40.45ID:4WFWNNQf
2byte専用縛りのUTF to UNICODE の変換数式だ

【カテゴリ2専用 普通にテスト済】
セル★に「:=C2=AE」と入力
  注 先頭には「:」を入れる事

セル☆はMID(★,3,2) でそこは「C2」表示
セル□はMID(★,6,2) でそこは「AE」表示

セル🟦はHEX2DEC(☆)で 194 となる
セル🟫はHEX2DEC(□)で 174 となる

セル⭐は以下の数式でUNICODEにさせる
 ⭐=64*(🟦-192)+(🟫-128)
 で ⭐は 174 となった

セル🌟はUNICHAR(⭐)で「®」と表示

なお、ある ンゴ文字 を連結で
表示が逆(右から左)に表示されたり、
右詰めに表示されたりしたが
キニシナイとする。エクセルでの表示だし
とにかく、下記数式は、バッチリ

⭐=64*(🟦-192)+(🟫-128) ∵2byte専用

BY 👤まずまずなので嬉しくて投稿しちゃった

🥳ランベルトって子供みたーーーーい
0698697訂正
垢版 |
2024/04/23(火) 16:42:46.35ID:4WFWNNQf
❌ンゴ文字 ⭕ンコ文字 に訂正
0699デフォルトの名無しさん
垢版 |
2024/04/23(火) 17:41:40.24ID:gmQp6YI4
>>674
プログラム言語の予約語や演算子、HTMLのタグなどには
制御文字を使えばその文字がコマンドの一部なのかデータなのかどうか
判別しやすくなるのにそんな使われ方にはならなかったね。
0x1B(ESC)はそのために存在する文字なのに。
07000692の改訂∴朝令暮改
垢版 |
2024/04/23(火) 20:49:00.69ID:4WFWNNQf
【修正前】
UTF8文字 カテゴリ
───  ──
00-7F ⇒ 1
C2-DF ⇒ 2
E0-EF ⇒ 3
F0-F7 ⇒ 4
F8-FB ⇒ 5
FC-FD ⇒ 6
上記以外 んーーー暫定カテゴリー1?

【朝令暮改 改訂】
UTF8文字 カテゴリ
───  ──
00〜7F ⇒ 1
C2 80〜DF BF ⇒ 2
E0 80 80 〜 EF BF BF ⇒ 3
F0 80 80 80 〜 F4 BF BF BF ⇒ 4
F800000000〜FBFFFFFFFF 
  ⇒ 5なの? 不正なの? 地球人の書イミフ
FC0000000000〜FDFFFFFFFFFF
  ⇒ 6なの? 不正なの? 地球人の書イミフ
上記以外 ヘンなのはカテゴリーは1でいいやーーーーー

by 👤地球の書を更に完璧に理解したぜ

🥳宇宙人、更に病状悪化。治療不可だな
0701デフォルトの名無しさん
垢版 |
2024/04/23(火) 20:54:53.10ID:4WFWNNQf
LPRINT CHR$ (27); 賛成
0702デフォルトの名無しさん
垢版 |
2024/04/23(火) 21:24:18.36ID:6TsV+qCl
>>693
ここでのUnicodeはUnicode表に載っているコード値という意味ね。

UTF8はU+100以上の文字がUnicode表とは似ても似つかぬコードに変形されてしまうので不可。
UTF16はU+10000以上の文字が変形されるのはあまり好ましくないが、結果のサロゲートペア
U+D800〜DBFFとU+DC00〜DFFFもUnicode表に載っているのでまあ可。
0703デフォルトの名無しさん
垢版 |
2024/04/23(火) 21:43:55.95ID:4WFWNNQf
>>700 自己スレ 朝令暮改を更に改訂 今度こそ最終案
【超々最終案】
とにかくカテゴリー、キーメタ。
UTF8の先頭 カテゴリ
───   ──
00〜7F ⇒ 1
C0〜DF ⇒ 2
80〜EF ⇒ 3
F0〜F8 ⇒ 4
上記以外 ⇒んー悩む。0だけど1かな

by👤地球の書 更に超完璧に超理解したぜ

🥳 どの案でも、いいぢゃーーーーん。
0704デフォルトの名無しさん
垢版 |
2024/04/23(火) 22:45:52.70ID:2WXqZgLp
>>702
似てもに似つかぬとか言い出すのはお前が16進数とか使ってるから。2進数使えば解決。そのままだということが分かる。
0705発達障害テスター
垢版 |
2024/04/24(水) 05:32:39.83ID:s8r+XPAL
🥳 モピロン、ASCiiもUTF8も、なんでも、
文字がASCiiなら、同じだ。ちがうのはunicodeだけ
「A」は、ASCもUTF8も、1BYTEだけど、
UNICODEは、1BYTEぢゃないもんねー。2バイトかな。
1と2は、違う値ですよーーーーーーーー。BY🥳
0706プロマネ
垢版 |
2024/04/24(水) 05:39:16.75ID:s8r+XPAL
>>703 こら、自称宇宙人!、カテゴリーは10進数はOKだが
UTF8の先頭は、16進数だけでなく、2進数も併用して
書き直せ、ちゅーーーーの

by 🤡

10進数にしよっかな
by 👤
07072進数レビュー
垢版 |
2024/04/24(水) 08:35:44.88ID:s8r+XPAL
🤡サロゲートペアてかカテゴリー4の
 UTF8toUNICODE を設計しろ。で
 まずは、
 U+10000 〜 U+10FFFF を2進数にしろ

👤3byte 24bit U+10FFFFのみ解答とする
  Unicode  
  1‖⚪⚪⚪⚫ ⚪⚪⚪⚪
  2‖⚫⚫⚫⚫ ⚫⚫⚫⚫
  3‖⚫⚫⚫⚫ ⚫⚫⚫⚫

🥳 ポクならサロなんちゃらは、設計は
  U+010000〜U+ 0FFFFFにするぅぅ
  UnicodeのサロのMaxのは、
  1‖⚪⚪⚪⚪ ⚫⚫⚫⚫
  2‖⚫⚫⚫⚫ ⚫⚫⚫⚫
  3‖⚫⚫⚫⚫ ⚫⚫⚫⚫
  てかU+10FFFFってどんな文字なの❓

🤡レビュー中止。てか
 カテゴリー4のUTF8toUNICODE
 のプログラミング設計にとりかかれ
0708突然ですがランベルト星人の呟き
垢版 |
2024/04/24(水) 08:47:17.93ID:s8r+XPAL
>>707 テスター🥳の疑問
、地球のネットのAIで検索してみた。スゲーー長文だが、U+10FFFFについてAIで検索すると
チョー適当にまとめると以下の通りかも

「天使の力」「大いなる創造の力」「愛の力」と呼ばれているそうです。 いずれにしても、『􏿿』という文字には謎めいた魅力があり、人々の興味を引きつけることは間違いありません。

との、ご回答だ by 👤 地球人の仕様ナゾ

誤回答なの? by 🥳なんか面白い
0709707の続き
垢版 |
2024/04/24(水) 09:50:49.16ID:s8r+XPAL
👤Unicodeは、とにかく4てか3byteトスル
  Unicode on サロゲートペア
  1‖⚪⚪⚪🔵 🔵🔵🟤🟤
  2‖🟤🟤🟤🟤 🟣🟣🟣🟣
  3‖🟣🟣🟢🟢 🟢🟢🟢🟢 トスル

🤡すると、UTF-8は?
👤地球の書を解読すると
  UTF-8 on サロゲートペア
  1U⚫⚫⚫⚫ ⚪🔵🔵🔵
  2U⚫⚪🟤🟤 🟤🟤🟤🟤
  3U⚫⚪🟣🟣 🟣🟣🟣🟣
  4U⚫⚪🟢🟢 🟢🟢🟢🟢

  と解読できた。
  なお、地球人は⚫は1、そして、
  ⚪は0という文字を使用するようぢゃ

🤡サロゲートてかカテゴリ4専用の
 UTF8toUNICODE をすぐプログラ厶しろ
0710709の続き
垢版 |
2024/04/24(水) 10:03:19.23ID:s8r+XPAL
🥳カテゴリー4かの判定は、
F0〜F8 ⇒ 4 だから、2進数に翻訳で
  1U⚫⚫⚫⚫ ⚪⚪⚪⚪
  〜
  1U⚫⚫⚫⚫ ⚫⚪⚪⚪

  >> の
  1U⚫⚫⚫⚫ ⚪🔵🔵🔵は、
  条件の十分条件ぽぃぞ。

🤡 十分条件って何❓
🥳 それだけで、バッチリ十分だぜ条件❢
👤 ¯⁠\⁠(⁠◉⁠‿⁠◉⁠)⁠/⁠¯¯
🤡サロゲートの専用の
 UTF8toUNICODE をすぐプログラ厶しろ
0711デフォルトの名無しさん
垢版 |
2024/04/24(水) 10:18:40.68ID:uTe2irO1
車輪の再発明どころか
まわりが車輪を使ってる中で丸太を転がすことを見つけてドヤってるかのような
0712デフォルトの名無しさん
垢版 |
2024/04/24(水) 12:53:35.98ID:PsCDSBWI
小学生がネットで調べたことを一生懸命自慢してるんじゃないだろうか?
爺の巣窟でそんなやついるかという疑問はあるが、小学校低学年の算数知識ならこんなもんだろう。高学年だと恥ずかしくて外歩けないレベルだし。
0713ランベルト星人\(^o^)/
垢版 |
2024/04/24(水) 13:56:24.70ID:s8r+XPAL
【カテゴリ4専用・多分OK】
セル★に「:=F0=A8=AA=B9」入力
  注 先頭には「:」を入れる事

セル☆はMID(★,3,2) でそこは「F0」表示
セル□はMID(★,6,2) でそこは「A8」表示
セル○はMID(★,9,2) でそこは「AA」表示
セル△はMID(★,12,2) でそこは「B9」表示

セル🟦はHEX2DEC(☆)で240  となる
セル🟫はHEX2DEC(□)で168  となる
セル🟪はHEX2DEC(○)で170  となる
セル🟩はHEX2DEC(△)で185  となる

セル⭐は以下の超秘伝の数式でUNICODEにさせる
⭐=65536*(4*(🟦B-240)+INT((🟫-128)/16))
+256*(16*MOD((🟫-128),16)+INT(((🟪-128)/4)))
+(64*MOD((🟪-128),4)+(G-128))

セル🌟はUNICHAR(⭐)で 「金先王」というか
お絵描きの文字 表示された\(^o^)/ 
超秘伝の数式だぜぇーーー

by 👤 やっほーサロゲートともバッチリ

🥳一文字だけしかテストしてないぢゃん
てか超秘伝の数式?アタマがヤバイぢゃん
0714デフォルトの名無しさん
垢版 |
2024/04/24(水) 14:02:06.16ID:IsoM8arJ
Look! A pair of boobs! -> (.Y.)
0715発達障害テスター
垢版 |
2024/04/24(水) 14:02:56.34ID:s8r+XPAL
🥳ランベルト星人やるーーーねー
ランベルト星人は、小学生の算数低学年でも
2進数とか計算とかバッチリぢゃーーーーん
ランベルト星人の数学パワー偏差値は無限大はマジぢゃーーーん。

👤偏差値は、正規分布は、範囲は±∞だけど・‥…
0716デフォルトの名無しさん
垢版 |
2024/04/24(水) 17:47:14.76ID:s8r+XPAL
>>707 の👤さんの2進数って、わかりやすい。
てか、UTF8、UTF16、UTF32は今すぐ廃止
そして、UTF24を地球人の皆さーーーん。今すぐ開発しようよ。

なんでも3byte/文字でいいじゃーーーん。
U+🟢🟠は、UTF24は⚪🟢🟠
U+⚪🔴🟢🟠は、UTF24は🔴🟢🟠
ちなみに、⚪は2進数だと00000000 の定数
変換簡単。地球でも大人なら計算できると思う。
てか、UTF8とかUNICODEもっと仕様変えようよ。
そのたびに、スマホの連絡帳のcontact.vcfが
文字化けして、システム改修のお仕事が増えるから
景気バッチリになるよ。

てか、UTF24を開発しなさーーい
0717デフォルトの名無しさん
垢版 |
2024/04/24(水) 18:27:46.35ID:s8r+XPAL
👤自慢する訳ぢゃないけどサロゲートに対応した
超秘伝の数式
⭐=65536*(4*(🟦-240)+INT((🟫-128)/16))+256*(16*MOD((🟫-128),16)+INT(((🟪-128)/4)))
+(64*MOD((🟪-128),4)+(🟩-128))
マジ、可也完璧

てか、オレッちのPCのEXCEL、どうにか
サロゲートとかいう漢字、表示はされるけど
MID関数が、怪しいのを発見
ま、この超秘伝の数式を検証テスト中に発見した
ので、お絵描きしておく。

ちなみに、月へんに亀という文字を三文字
で、先頭の4文字を表示というロジックなのに
2文字しか表示しない。
ったく、地球人が変な規格を追加するから
滅茶苦茶ぢゃーーーん。
てか、サロゲートも、廃止しろーーーー
0718発達障害テスター
垢版 |
2024/04/24(水) 19:38:51.65ID:s8r+XPAL
てか、MID関数がサロゲート
のせいでバグってるの❓ で絵文字はスキです∵カワイイ
∴絵文字をサロゲートにするのは反対
∴絵文字は日本語の漢字を半分削り
日本語は絵文字だらけにしろー。
絵文字のMID関数でのバグもなくなりそうぢゃーーーん
BY 🥳バカテスター
0719夜会もレビュー
垢版 |
2024/04/24(水) 20:25:50.12ID:s8r+XPAL
🤡 MID関数の第2パラメータ
はサロゲートならば倍にすれば解決ぢゃん

👤 呆┐⁠(⁠ ⁠˘⁠_⁠˘⁠)⁠┌ これだから地球上は小学生未満の知能なのだ
オレの霊感だとサロゲートは2文字と誤認識するからだ
しかし、ある日予告なく、
🟥🟩
🟦🟨が
内部はunicodeは、UCS2やめて、
内部はUTF32とか、UCS4にしたら
「ユーザーがサロゲートならば倍」の修正ロジックは、巻き戻さないとヤバイ
 
🟥🟩
🟦🟨が、そこまでは、やらないだろ
というか、UNICODEがUCS4に規格追加しても、それと同時に
あの計算ソフトの内部はUTF32とか、UCS4になる訳ではあるまい。

🤡MID関数等の使用を禁ずる案件が増えて嬉しいです

🥳バグっていいぢゃーーーん。AKBてかHKBてか、何とか坂48 サイコー
0720デフォルトの名無しさん
垢版 |
2024/04/24(水) 21:43:02.45ID:KaCj8qqt
>>704
そのままじゃないだろ。

Unicode : 101101101010111
UTF8: 11100101 10101101 10010111

第一、2進数なんて可読性が低すぎる表記を使えるわけない。
0721デフォルトの名無しさん
垢版 |
2024/04/25(木) 00:11:56.99ID:PLcFkbi3
>>703
UTF-8 は以下のように、先頭ニブル・4ビットで、1〜4バイト文字を判別している

1バイト文字: 0000〜0111: 0〜7

多バイト文字の2バイト目以降
1000〜1011: 8〜11(8〜B)

2バイト文字: 1100〜1101: 12〜13(C〜D)
3バイト文字: 1110: 14(E)
4バイト文字: 1111: 15(F)

Unicode → UTF-8

1バイト文字(数字・アルファベット)
U+0000 〜 U+007F 0xxx xxxx

2バイト文字(アラビア文字)
U+0080 〜 U+07FF 110x xxxx 10xx xxxx

3バイト文字(ひらがな・漢字)
U+0800 〜 U+FFFF 1110 xxxx 10xx xxxx 10xx xxxx

4バイト文字(難漢字)
U+10000 〜 U+10FFFF 1111 0xxx 10xx xxxx 10xx xxxx 10xx xxxx

BOM = "\uFEFF"
→ EF BB BF
0722デフォルトの名無しさん
垢版 |
2024/04/25(木) 06:29:50.76ID:Zr256XUh
🤡:=プロマネ(の役)
カテゴリーの最終案件は再検討∧後日

👤:=ランベルト星人(の役) 
どうして?

🤡以前納品したexcel関数で作ったのが
サロゲート文字でバグることが判明

👤で、ま、それはオレが報告したけど

🤡MID関数で4バイト文字: 1111: 15(F)で
バグから、MID関数使う全ての改修だ

👤サロゲートの文字使用禁止でいいぢゃん

🥳:=発達障害テスタ(の役)
絵文字使用禁止に反対。∴
MID関数使う全ての改修に、超賛成
ていうか、「👤」は難毒漢字なの??

👤それは、サロゲート∧emojiかも
0723722
垢版 |
2024/04/25(木) 08:19:51.97ID:C8YrSVH7
🥳で、全てのプログラムで
MID関数は使用禁止、早くやろーーよ
サロゲート文字列でバグるから、
>>722 で「MID関数使う全ての改修だ」
って、全て プロマネいってたぢゃーん。

🤡うっせいなーー、それは微妙に撤回
サロゲート文字列を引数とする
MID関数の使用を禁止に、変更だ
us-ASCii文字列を引数とする
MID関数の使用は許可トスル

そう MID(":=F0=A8=AA=B9",3,2) はOK

🥳
:=F0=A8=AA=B9はサロゲート文字ぢゃん
月亀 って感じの難毒漢字一文字ぢゃーん

🤡 なんてバカなんだ ascii13文字だ。

👤¯⁠\⁠(⁠°⁠_⁠o⁠)⁠/⁠¯ 地球人のcontact.vcf 化けるわけだ
0724ランベルト星人
垢版 |
2024/04/25(木) 09:19:23.56ID:Zr256XUh
721さんの地球の日本語
「多バイト文字の2バイト目以降 1000〜1011: 8〜11(8〜B)」
の解読に成功した。おそらく
それが絶対に2byte or 3byte or 4byte のUTF8ならば、
2byte目 3byte目 4byte目
─── ──── ────
80〜EF na   unknown ⇒ 2byte と判定せよ
80〜EF 80〜BF na    ⇒ 3byte と判定せよ
80〜EF 80〜BF 80〜BF  ⇒ 3byte と判定せよ

🥳 na とか unknown ってなに、バカなの❓
 そんなの、書いてないぢゃーーーん。勝手に解釈いれるな
👤 ん、参照するなってか、参照したら付きの文字の先頭だし
 んーーー言葉に出来ん。
てか、プログラミングするときは、この辺りの設計は
重要だ

🤡難しく考えないでドンドン、プログラム製造しろーーー
🥳ドンドン、しろーーー
0725デフォルトの名無しさん
垢版 |
2024/04/25(木) 09:26:46.18ID:Zr256XUh
👤 あ、しまつた。タイプミスしまくってた
🥳 なんだよ。プログラムところがタイプライタからやり直せ
🤡 ま、プログラムでタイプミスしなきゃ、ヨシ、
🥳 タイプミスっても、シンタクスエラーなるしヨシ
👤 とにかく、サロゲートでの文字列のMID関数でバグる件の
  修正は、目処たった
🥳 やるぢゃーーーーん。テキトーにやっればいいぢゃーーーん
🤡 とにかく、慎重且つ迅速にやれ
👤 ま、今日は、プログラムの修正に専念する。バイバイ
0726デフォルトの名無しさん
垢版 |
2024/04/25(木) 10:10:22.88ID:Zr256XUh
👤とにかく、MID関数はサロゲート未対応
に伴う、プログラム改修は完了した。

🤡ありがとう。そうだ
単独1byteには対応済
単独2byteには対応済
単独3byteには対応済
そして、その対応で、単独4byteも対応済

👤 単独? asciiとサロゲートが混在は?
🤡 それは、これからだ。
1〜4byte文字が混在混在混在の文字列の
UTF8→UNICODE 変換のプログラムに
魔改造とする。その為に
>>721 の一覧は重要だ。
👤 yes

🥳4つのロジックを継ぎ接ぎするだけ
 超楽勝。∴小学生でも、超できるね

🤡 地球人の小学生には無理だろ
👤 yes
0727突然ですがランベルト星人の呟き
垢版 |
2024/04/25(木) 13:18:02.69ID:Zr256XUh
みえた。裏の裏の裏まで霊感で見えた
1バイトなのに、1バイト目80〜FFは👻
2バイトで2バイト目80〜BF外 は👻
3バイトで2バイト目80〜BF外 は👻
3バイトで3バイト目80〜BF外 は👻
4バイトで2バイト目80〜BF外 は👻
4バイトで3バイト目80〜BF外 は👻
4バイトで4バイト目80〜BF外 は👻
と表示する

by 👤透視によりUTF8仕様の裏まで読切る

なお👻は「おばけ」を意味するemoji
0728デフォルトの名無しさん
垢版 |
2024/04/25(木) 15:12:32.21ID:VKvfdxmp
性器表現使うようになってから
midなんてもう使わなくなったわ
0729突然ですがランベルト星人の呟き
垢版 |
2024/04/25(木) 15:16:15.41ID:Zr256XUh
👤プログラム設計者が
2バイトで2バイト目80〜BF外 は👻を表示のロジックをどうするか
愉しみ
🤡単に👻を表示するだけだろ
👤ま、そうだが、2バイト文字なのか怪しいわけで、
 次の文字は、2バイト先なのか、それとも、
 次の文字は、1バイト作なのか、どっちでプログラム設計するかだ
🤡んー、2バイトとのはずなのに2バイトぢゃないか
 ま、文字化けasciiとみなし、次のは1バイト先だ。
 なかなか、ランベルト、有能ぢゃーーん。
 地球人の既存のロジックでそこまで気づくのは皆無だな
👤それなりに地球人でもいるだろ。半分位
0730バカテスタ
垢版 |
2024/04/25(木) 15:22:15.35ID:Zr256XUh
🥳 ランベルトとプロマネ、プログラム設計のハナシしてるな
てか、変なUTF8コードだと、「👻」を表示するってこと❓

👤モチロン、宇宙初の超バッチリロジック
 文字化けは、絵文字「👻」で表示。これが
 我が宇宙のスタンダードだ。だっちゅーーーの

🤡多分、地球初てか、世界発かな。てかま、
 絵文字をUNICODEがサポートした時点で、変なやつが
 文字化けの文字を「👻」にする奴は665人ぐらいいるな
 世界で666番目だと憶測する。

🥳面白いけど、二人とも頭オカシイです。
0731プロマネみずからプログラミング設計
垢版 |
2024/04/25(木) 15:42:21.27ID:Zr256XUh
PRINTABLE:=xx=xx=xx=xx=xx=xx
なんて感じのやつは、1バイト先はその3倍右だな
by 🤡呟き
0732デフォルトの名無しさん
垢版 |
2024/04/25(木) 18:28:36.90ID:e5LyQxxV
UnicodeでU+7F,U+FFFFは制御文字なのにU+FFは制御文字じゃないんだね
8bitの上限という意味があるコードポイントなのに制御文字として割り当てられなかったのが意外
0734デフォルトの名無しさん
垢版 |
2024/04/25(木) 20:55:57.72ID:9Q+n8XjX
>>732
7Fが制御文字DELに割り当てられたのは当時は紙テープに穿孔していたから。
Unicodeの策定時には8ビットの上限FFを特別扱いする意味は既になくなっていた。
0735721
垢版 |
2024/04/26(金) 03:57:38.85ID:g1wZg0z4
>>721
のルールに基いて、以下の3つの10進数のバイト列を、
先頭(1バイト目)からチェックしていく時、
最初にルール違反となるのは、何バイト目か?

129 130
120 169
240 159 146 206 184

つまり、ルール違反はエンコードエラーになる。
一般的にはルール違反の文字を除去して、処理を続けるべきではない
0736朝からレビュー
垢版 |
2024/04/26(金) 08:54:42.48ID:NalgKhcH
🥳721というか735 楽しい
その9byteは、ポクのメモ帳は、ANSI左下に表示。してるのに文字が化けてる

🤡
無理やりなら、現ツール
UTF8tUNICODE し、
それをキャラクター表示し
さらに手作業でおこなった結果は、

👻👻x👻👻👻👻Ϙ である

👻👻x👻👻👻👻 のそれぞれを
ascii 1byteとみなし、3byte目のみ
化けずにxと表示

最後の2byteは、
UTF8の2バイト文字と判定
「♀」に似た字体U+03D8
 Ϙは、古代ギリシャの文字コッパ

👤解読率 約2割、ダメだな。そのツール
🤡てか、オマエが設計中のだ。
0737736
垢版 |
2024/04/26(金) 09:00:29.67ID:NalgKhcH
🤡メモ帳のANSI表示は右下に表示だろ
🥳テヘペロ、右と左は知ってる。タイプミスっただけ
0738超低レベルなレビュー
垢版 |
2024/04/26(金) 13:16:03.82ID:NalgKhcH
🤡 UTF-8にはサロゲートペアはないぜ
👤 んーー「😊」とかそして「👤」は
  UTF-8では、4BYTEだろ
🤡 地球ではネットサーフィンで見たら
  UTF-8にサロゲートペアはありません
👤 でも、「😊」とかそして「👤」は
  UTF-8変換できるぞ
🥳 そうだ、てか、日本語を半分にして
  空いた3byteに「🥳🤡👤」
  を割当てろ
👤 んー珠にはいいこというね
  モピロン、ランベルト星では、
  フォントに👤というフォントがあって
  日本語等の漢字は全て絵文字に化ける
  なんてねーーーー
🥳 ひらがななら幼稚園児でも知ってるよ
  漢字は幼稚園児なら知らないから、
  ランベルト星人のような幼稚園児に
  バッチリな、フォントだね。
👤 おそらくまだ、地球にはこのフォント
  は無いと思う。
  でも、フォントによっては
  白黒ではあるが絵文字だらけのも
  見覚えある
🤡 ちゃーんと国語と漢字の勉強しなさーーい

by 😅チョー低レベル 失礼しましたーーー
0739ランベルト星人
垢版 |
2024/04/26(金) 14:28:51.75ID:NalgKhcH
👤 >>736の、🤡よ、
オマエは、半手作業「👻👻x👻👻👻👻Ϙ」なんてホザいてるが
オレの秘伝の数式での手作業では、
「👻👻x👻👻👻👻θ」だっ

❌ 最後の2byteは、「♀」に似た字体U+03D8
⭕ 最後の2byteは、「θ」であり、 U+03B8

んー0x20ズレてるな。
ランベルト星の秘伝の数式 >>697 に記載のだが
⭐=64*(🟦-192)+(🟫-128) バッチリだ。
※UTF8で2byte専用で、絶対にUTF8で2BYTEの文字コードであること

ま、不正なコードなら👻が沢山でるが、
とにかく、最後のそれは、θ、θ、θのようだ。

🥳てか、UTF8の2byteのに ンゴ文字ってのがあってさ
U+07F7なんだけど、これが先頭文字だと
EXCELのセルに貼り付けると、文字の順番が右から左に逆になりやすい
てか、U+07F7の字体。カワイイです。てかンゴ文字が
文字化けしても、わからないと思います。
てか、U+07F6は、字体は、2と9が合体してる
🤡はい。てか、無意味なことかくなーーー
0740突然ですがランベルト星人の呟き
垢版 |
2024/04/26(金) 23:44:38.72ID:NalgKhcH
👤下記のお絵描き

UTF-8 on 4byte
  1U⚫⚫⚫⚫ ⚪🔵🔵🔵
  2U⚫⚪🟤🟤 🟤🟤🟤🟤
  3U⚫⚪🟣🟣 🟣🟣🟣🟣
  4U⚫⚪🟢🟢 🟢🟢🟢🟢

から 以下のプログラミング設計した
オレッて天才❓

elseif F0≦🟦≦F8 THEN
  if 80h≦🟫≦BF and
   80h≦🟪≦BF and
   80h≦🟩≦BF then
  then '4byte
    ⭐=65536*(4*(🟦-240)
      +INT((🟫-128)/16))
      +256*(16*MOD((🟫-128),16)
      +INT(((🟪-128)/4)))
      +(64*MOD((🟪-128),4)
      +(🟩-128))
    UNICHAR(⭐)を表示
    n=n+4
0741プロマネの役
垢版 |
2024/04/27(土) 00:02:00.10ID:t7simqGe
🤡 ビット積を使わずunicode化かよ
ま、地球人から賛否両論てか、地球人にソースレビュー
させたら非難の嵐だせ。
👤 ゲラゲラ 地球人が間抜けかどうかわかるな
🤡 ナンデ
👤 ま、プログラミング設計と、文字コード設計、そして
その裏の裏まで透視できてくるとわかる、
てか、elseif F0≦🟦≦F8 THENは
暫定的だ。F0≦🟦≦F6辺りにするかな
wwww てか、さ、u+10FFFF〜u+1FFFFFには
正当なコードはいくつあると思う
🤡最大のそれは、u+10FFFF だから
簡単だな。1より大きい くは、・・・

👤ちなみに、UNICHAR(⭐)は、excel関数の意だが
⭐がデカイとエラーとなる
ま、u+FFFFでも、その10倍てかF倍より1つ小さい
付近までならokだ。
🤡おれっちのテスト用マシンのexcel
windowsは10にupすみだが
excelは7の頃のだ
unichar関数なんて無いかもしれない
👤んーーーー、その頃は未だutf8はなかったのか
🤡そこそこ国内に浸透してた記憶はある
🥳てかさ、16面のunicodeって何個あるの❓
👤🤡 夜も老けた。そろそろお休みーーーー
🥳お休みーーーー
0742デフォルトの名無しさん
垢版 |
2024/04/27(土) 13:53:22.31ID:t7simqGe
👤文字コードで0x00の処理に、ミスは、あった
ま、0x00はモチロンasciiコードだが、
話すと長くなるが、文字化けで0x00となっても👻を表示するのは
困難と判断す。ていうか、0x00は文字でない文字だ∵文字の終端だっけか
C言語ではそうたよな❓、

🤡入力にバグデータが含まれる文字列は、
出力のその位置には👻は出力して欲しいが、
単なる要望だ。0x00は難しいそうだな。

🥳なんでーーー。カンタンだよな。

🤡👤おそらく、高難易度かもしれん。
0743プロマネ変なテスト思いつくの巻
垢版 |
2024/04/27(土) 15:26:45.51ID:t7simqGe
🤡 あっそうだ。0x31 0x32 0x33 0x00 0x35
というファイルをバイナリエディタで作成とする
🥳 で
🤡 メモ帳で開く、ANSIでもUTF8でもキニシナイ
🥳 そりゃ、全部ASCiiだからモチロン文字化けない。
  で、「123」 と表示かな 「123 123」かもね
🤡 ま、後者となった覚えがある
🥳 なんだよーー、聞くな。知ってるぢゃーーん
🤡 で、特には編集はしないが、上書き保存する
・・・ 続きは別途
0744743
垢版 |
2024/04/27(土) 15:49:40.89ID:t7simqGe
🤡🥳 あっいけね、「123 5」という表示だ
🤡 でさ、メモ帳で編集せず上書き保存してさ、
そのファイルをバイナリエディタで開くと
どうなるか、予想してみろ

🥳 0x31 0x32 0x33 0x00 0x35 のまま∵編集してない
🤡 0x31 0x32 0x33 0x20 0x35 だ。
  0x00は、0x20に変化した。spaceに変化だ
👤 ┐⁠(⁠´⁠ー⁠`⁠)⁠┌ てか文字列の途中の0x00は0x20に変更
するようにさせるか、そのままでよいかだな
🥳スペースが見えたら病気ですよーーー0x00ってスペース❓
👤¯⁠\⁠(⁠°⁠_⁠o⁠)⁠/⁠¯
0745744
垢版 |
2024/04/27(土) 16:14:24.10ID:t7simqGe
🤡でさ、文字列の途中に0x00あると、魔改造したツールどうなる?
👤想定外だったが、いつの間にか、0x00を無視するロジックを組み込んでた
プログラミング設計書からコードに手作業でコーディングするわけだが
その時、そのロジックは組み込んでた。ま、コーディング中は頭がいっぱいで
記憶にはないがな。
🤡有能なヤツは、設計書の本質まで考えてコーディングするから
いろいろた。設計書にそこまで盛り込むとソースコードの方が見易くなるという
罠にはまる。てか、現状の動作を仕様とする。
👤変更不要という意味か❓
🤡モピロンだ。
👤ok
🥳0x00を表示するようにしろーーバグぢゃなーーい
👤🤡 ま、見えないものは表示しないのでこれでよいのだーー
🥳これでよいのだーーに賛成
レスを投稿する


ニューススポーツなんでも実況