Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/
探検
文字コード総合スレ part14
■ このスレッドは過去ログ倉庫に格納されています
2023/03/03(金) 15:46:58.08ID:yKqwMGHT
160デフォルトの名無しさん
2023/03/17(金) 21:09:37.93ID:HCeWuFC8 BOMって、 UTF16とかじゃないと意味が無いやん?
161デフォルトの名無しさん
2023/03/17(金) 21:21:18.90ID:Y3Hkfwer 一応は出典付きになってんだからそれ辿って判断しろ
162デフォルトの名無しさん
2023/03/17(金) 22:17:32.94ID:axfbRcbR mac のファイルシステムはリソースフォークを持っているので
そこにTextEncoding を格納しておけば良い
そこにTextEncoding を格納しておけば良い
163デフォルトの名無しさん
2023/03/18(土) 09:15:45.80ID:hvwkbmHD >>159
出典を挙げてくれるところが親切だな。そのqiitaどこ?
出典を挙げてくれるところが親切だな。そのqiitaどこ?
164デフォルトの名無しさん
2023/03/19(日) 12:16:38.49ID:fPDrKYk/ Windows のファイルシステムは拡張子を持っているので
そこが .txt なら BOM 無し UTF-8 を前提にして良い
そこが .txt なら BOM 無し UTF-8 を前提にして良い
165デフォルトの名無しさん
2023/03/19(日) 12:24:54.52ID:h5llDeKs おいおい
Windowsで.txtなんてそれこそ山程CP932のファイルがあるだろう(日本の場合)
それらは全て無視かい
Windowsで.txtなんてそれこそ山程CP932のファイルがあるだろう(日本の場合)
それらは全て無視かい
166デフォルトの名無しさん
2023/03/19(日) 13:04:41.50ID:SRrPG6Bv >>165
そいつらは将来に備えて .sjt とかにでも改名しとけw
そいつらは将来に備えて .sjt とかにでも改名しとけw
167デフォルトの名無しさん
2023/03/19(日) 13:31:52.51ID:pEJ/zH5I UTF-8を使う俺が困らなければ他人はどうでもいい。
168デフォルトの名無しさん
2023/03/19(日) 14:22:28.77ID:SRrPG6Bv169デフォルトの名無しさん
2023/03/19(日) 14:46:22.57ID:pEJ/zH5I 遅いか早いか、まさにそこがポイントだわな。
100年後には確実に死んでいるだろうからといって明日すぐに死んでもいいなんて考える人はまずいない。
100年後には確実に死んでいるだろうからといって明日すぐに死んでもいいなんて考える人はまずいない。
170デフォルトの名無しさん
2023/03/19(日) 15:05:53.25ID:SRrPG6Bv あきらめろ!もう勝負はついてしまったんだ
今は粛々と対応を進めるフェーズだ
早く対応するほど傷は浅くてすむぞ
今は粛々と対応を進めるフェーズだ
早く対応するほど傷は浅くてすむぞ
171デフォルトの名無しさん
2023/03/19(日) 15:11:12.34ID:RPlhi56t >>166
むしろ新しいほうが.utf8のほうが合理的かと
むしろ新しいほうが.utf8のほうが合理的かと
172デフォルトの名無しさん
2023/03/19(日) 15:20:23.00ID:SRrPG6Bv173デフォルトの名無しさん
2023/03/19(日) 15:26:26.02ID:pEJ/zH5I 春休みっぽいね。
174デフォルトの名無しさん
2023/03/19(日) 16:57:13.82ID:SRrPG6Bv 今日は日曜日なんだぜ。仕事引退したご老人は気づかんかもだが。
175デフォルトの名無しさん
2023/03/19(日) 17:30:01.32ID:NPoZApcF C言語でShiftJISからUTF-8に変換するコードをライブラリは使用しないで書いて下さい。
以下はC言語でShiftJISからUTF-8に変換する簡単なコードです。このコードでは、ShiftJISの1バイト目が0x81以上0x9F以下または0xE0以上0xEF以下の場合には2バイト文字、それ以外の場合には1バイト文字として扱います。
#include <stdio.h>
void sjis_to_utf8(char *sjis, char *utf8) {
unsigned char c1, c2;
while (*sjis != '\0') {
c1 = *(unsigned char *)sjis++;
if (c1 <= 0x7F) {
*utf8++ = c1;
} else {
c2 = *(unsigned char *)sjis++;
if ((0x81 <= c1 && c1 <= 0x9F) || (0xE0 <= c1 && c1 <= 0xEF)) {
*utf8++ = ((c1 << 8) | c2) + 0x3C00;
} else {
*utf8++ = c1;
sjis--;
}
}
}
*utf8 = '\0';
}
int main() {
char sjis[] = "こんにちは、世界!";
char utf8[100];
sjis_to_utf8(sjis, utf8);
printf("%s\n", utf8);
return 0;
}
以下はC言語でShiftJISからUTF-8に変換する簡単なコードです。このコードでは、ShiftJISの1バイト目が0x81以上0x9F以下または0xE0以上0xEF以下の場合には2バイト文字、それ以外の場合には1バイト文字として扱います。
#include <stdio.h>
void sjis_to_utf8(char *sjis, char *utf8) {
unsigned char c1, c2;
while (*sjis != '\0') {
c1 = *(unsigned char *)sjis++;
if (c1 <= 0x7F) {
*utf8++ = c1;
} else {
c2 = *(unsigned char *)sjis++;
if ((0x81 <= c1 && c1 <= 0x9F) || (0xE0 <= c1 && c1 <= 0xEF)) {
*utf8++ = ((c1 << 8) | c2) + 0x3C00;
} else {
*utf8++ = c1;
sjis--;
}
}
}
*utf8 = '\0';
}
int main() {
char sjis[] = "こんにちは、世界!";
char utf8[100];
sjis_to_utf8(sjis, utf8);
printf("%s\n", utf8);
return 0;
}
176デフォルトの名無しさん
2023/03/19(日) 17:39:03.96ID:0QGYVmFU ShiftJISって表現だと文字集合定まらないのに回答もらえんだ
どんだけクソ記事多いんだよ
どんだけクソ記事多いんだよ
177デフォルトの名無しさん
2023/03/19(日) 21:07:41.87ID:Lshwza3t178デフォルトの名無しさん
2023/03/19(日) 22:36:34.34ID:S5QK9jWm apfs はxattr もresource fork も両方使える
named resource fork は無くなってるが
named resource fork は無くなってるが
179デフォルトの名無しさん
2023/03/28(火) 06:36:26.58ID:qh0NVSBO >>175
バッファオーバーフローのチェックがなく不合格
バッファオーバーフローのチェックがなく不合格
180デフォルトの名無しさん
2023/03/28(火) 08:25:55.12ID:b9xJHTM0 それ以前の問題だろ。>>175はChatGPTに作らせたんじゃね?
181デフォルトの名無しさん
2023/04/03(月) 12:56:12.62ID:xtNXRsCH AIによるプログラミングはまだ無理だね
182デフォルトの名無しさん
2023/04/03(月) 16:26:10.65ID:vHpZ2WBP AIって、コンピュータのくせに自分でトレース実行してバグ無いか確認しないのなw
183デフォルトの名無しさん
2023/04/09(日) 09:21:00.03ID:Dm0aM9sg 検算してもその検算が正しいかどうかすら自身が持てないのがchatGPT
184デフォルトの名無しさん
2023/04/09(日) 09:22:48.40ID:Dm0aM9sg WindowsだがExcelもWordも入れてない
自分のHDD/SSDにはSJISで保存されたファイルなんてもうほぼ存在しない
自分のHDD/SSDにはSJISで保存されたファイルなんてもうほぼ存在しない
185デフォルトの名無しさん
2023/04/09(日) 12:54:00.15ID:/c2XAn9L 今MacユーザーになるともれなくUnicode絡みの問題が付いてくるよ
https://applech2.com/archives/20230402-nfd-and-nfc-issues-in-macos-13-3-ventura.html
https://applech2.com/archives/20230402-nfd-and-nfc-issues-in-macos-13-3-ventura.html
186デフォルトの名無しさん
2023/04/09(日) 13:04:53.10ID:orQE+67J187デフォルトの名無しさん
2023/04/09(日) 14:46:54.72ID:auAc9wKg Macは日本の野党と同じで世間からの評価が甘いよなあ。
Macが基幹業務で使われてない何よりの証拠でもあるが。
Macが基幹業務で使われてない何よりの証拠でもあるが。
188デフォルトの名無しさん
2023/04/09(日) 17:56:56.24ID:OOTdGDLa 地震ないのに自信たっぷりに回答するのがChatGPT
189デフォルトの名無しさん
2023/04/09(日) 18:30:06.98ID:4krZSi9u クエーッ!
190デフォルトの名無しさん
2023/04/09(日) 19:01:55.55ID:FKzaKr3N 知らないことは知らない
調査した限りでは存在しない
そういう答えのほうがいいのに
なんで捏造するんだろうね
調査した限りでは存在しない
そういう答えのほうがいいのに
なんで捏造するんだろうね
191デフォルトの名無しさん
2023/04/09(日) 21:05:33.99ID:UcS23PeT そういうのはだいたい、知らないと答えたらひどく怒られた経験があって委縮して育ってしまったんだと思う
192デフォルトの名無しさん
2023/04/12(水) 12:03:52.02ID:+8HledST 自信たっぷりに嘘を答えるから
文系はすぐにだまされるωωω
文系はすぐにだまされるωωω
193デフォルトの名無しさん
2023/04/14(金) 14:38:56.45ID:M7ace2PD キャラ名に「ソ」があると画面がフリーズ Switchの新作ゲームにバグ 制作会社が謝罪
https://www.itmedia.co.jp/news/articles/2304/14/news119.html
https://www.itmedia.co.jp/news/articles/2304/14/news119.html
194デフォルトの名無しさん
2023/04/14(金) 15:45:01.31ID:xzN0pWfJ >>193
ShiftJISならバックスラッシュ誤判定だろうけど、ShiftJISなわけないよな
ShiftJISならバックスラッシュ誤判定だろうけど、ShiftJISなわけないよな
195デフォルトの名無しさん
2023/04/14(金) 15:53:05.13ID:seuuHt2q 浅慮すぎるのは置いといて
ゲームだし手軽にバイト長固定で処理したかったは十分考えられる
ゲームだし手軽にバイト長固定で処理したかったは十分考えられる
196デフォルトの名無しさん
2023/04/14(金) 17:03:50.51ID:ixIh7fyO 芸能人は化ける
197デフォルトの名無しさん
2023/04/14(金) 18:27:55.47ID:I++sIoci ネットの論調は「ソ」と言ったらSJISバグみたいになってるけど今時ありえるだろうか?
もし事実だとしたら旧作からライブラリか何かを移植して流用したのかな?
もし事実だとしたら旧作からライブラリか何かを移植して流用したのかな?
198デフォルトの名無しさん
2023/04/14(金) 18:50:37.36ID:41MH6ytl 「ソ」とか「ポ」を含む文字列で壊れる問題、昔はS-JIS絡みで時々見かけたね
199デフォルトの名無しさん
2023/04/14(金) 21:31:31.20ID:MvmRH5fr ここで念のため
<!--美乳-->
<!--美乳-->
200デフォルトの名無しさん
2023/04/15(土) 11:49:15.28ID:nVVXe4ml ノーパソ
201デフォルトの名無しさん
2023/04/15(土) 12:43:38.13ID:j+1WZq2H XAMPP は、MSYS2 なのか?
Windows のsjis(CP932), MySQL, PHP を使っているのかも
Ruby on Rails では、日本語のバグを避けるため、
Linux, UTF-8, PostgreSQL しか使わない
Windows のsjis(CP932), MySQL, PHP を使っているのかも
Ruby on Rails では、日本語のバグを避けるため、
Linux, UTF-8, PostgreSQL しか使わない
202201
2023/04/15(土) 12:55:47.99ID:j+1WZq2H203デフォルトの名無しさん
2023/04/16(日) 08:38:15.57ID:3UxBQXGl Unityの文字化けを解消する!
https://qiita.com/kumi0708/items/2f8dd2fc2ccb673ff12b
UnityからC#のスクリプトファイルを作成するとUTF-8(BOM無し)になりますが、
VisualStudioはUTF-8(BOM付き)じゃないとコードページを解釈できずにShift-JISになってしまうようです。
https://qiita.com/kumi0708/items/2f8dd2fc2ccb673ff12b
UnityからC#のスクリプトファイルを作成するとUTF-8(BOM無し)になりますが、
VisualStudioはUTF-8(BOM付き)じゃないとコードページを解釈できずにShift-JISになってしまうようです。
204デフォルトの名無しさん
2023/04/16(日) 11:48:59.76ID:SPigkToS WindowsがUTF-16だと知らないのは不思議だな
205デフォルトの名無しさん
2023/04/16(日) 12:01:24.12ID:kKWUTzzz SwitchとWindowsでBOMなしテキスト使ってると、結構困ったことになるんだよね
char:Switch=utf8 Win32=sjis
wchar_t:Switch=utf32 Win32=utf16
char16_t/char32_t:対応しているライブラリが少ない
char:Switch=utf8 Win32=sjis
wchar_t:Switch=utf32 Win32=utf16
char16_t/char32_t:対応しているライブラリが少ない
206デフォルトの名無しさん
2023/04/16(日) 12:09:09.12ID:zYleX6N8 ターゲット固定なのにそんなのある?
ネットとか客先とか何くるかわからん状況じゃないんだし
ネットとか客先とか何くるかわからん状況じゃないんだし
207201
2023/04/17(月) 12:35:43.54ID:4hNaPs7t Windows はUTF-16 か。
確か、Ubuntu はUTF-32 とか?
たとえLinux 内部で、4バイト文字を使っていたとしても、
Ruby などのウェブ系言語では、UTF-8 前提でモジュールを作るでしょ?
CP932 の「表・ソ」などのダメ文字は、数十年前の話
確か、Ubuntu はUTF-32 とか?
たとえLinux 内部で、4バイト文字を使っていたとしても、
Ruby などのウェブ系言語では、UTF-8 前提でモジュールを作るでしょ?
CP932 の「表・ソ」などのダメ文字は、数十年前の話
208デフォルトの名無しさん
2023/04/18(火) 00:06:47.73ID:FLdY4aX1 一方ビックカメラは令和でもSJISを使った
209デフォルトの名無しさん
2023/04/18(火) 04:27:16.75ID:ClilpHUV >>208
5ch…
5ch…
210デフォルトの名無しさん
2023/04/18(火) 05:51:45.47ID:GSSywy5h 〄🆗
211デフォルトの名無しさん
2023/04/18(火) 10:05:55.09ID:sxhvE7iU 森鷗外る
森鷗外𠮟る
森鷗外𠮟る
212デフォルトの名無しさん
2023/04/18(火) 18:44:09.21ID:zZ3gNzrS 森鴎外(´・ω・`)ショボ-ン
213デフォルトの名無しさん
2023/04/18(火) 20:00:26.71ID:+ox+01C9 &#xHHHHH; で5桁以上指定出来ないのは HTML のバグ?
214デフォルトの名無しさん
2023/04/18(火) 21:28:06.50ID:5DETvPNY215デフォルトの名無しさん
2023/04/19(水) 00:17:26.51ID:OlbpA5HH >>213
え?
え?
216デフォルトの名無しさん
2023/04/19(水) 01:44:50.59ID:rDAf/S/P 痛い痔
217デフォルトの名無しさん
2023/04/19(水) 17:00:21.07ID:ZJsXKDj1 字にはヒラギノール
218デフォルトの名無しさん
2023/04/25(火) 07:46:57.89ID:oL7xmfo9 Macで古いmp3を取り込んだらID3タグが文字化けしまくり
昔はコード変換のユーティリティとか持ってたけど、どうすべきかな
坂本龍一は言いました「芸術は長く、人生は短し」
音楽ファイルは長く、文字コードは短し
昔はコード変換のユーティリティとか持ってたけど、どうすべきかな
坂本龍一は言いました「芸術は長く、人生は短し」
音楽ファイルは長く、文字コードは短し
219デフォルトの名無しさん
2023/04/26(水) 10:01:56.89ID:N7+hGpB4 教授死んで済々したわ
220デフォルトの名無しさん
2023/05/10(水) 11:22:21.87ID:AjRm4EFi ふと思ったが、令和の令って、手書きでどう書いてます?
「令」の下側の部分、活字だと「つ」に縦棒みたいになってるけど、手書きだとマみたいに書く人は
少なくないと思う。でもこれって中国語の活字体に近い
実はこんなレベルで「統合」漢字ですか?
「令」の下側の部分、活字だと「つ」に縦棒みたいになってるけど、手書きだとマみたいに書く人は
少なくないと思う。でもこれって中国語の活字体に近い
実はこんなレベルで「統合」漢字ですか?
221デフォルトの名無しさん
2023/05/10(水) 12:49:42.27ID:ji6HZ6my222デフォルトの名無しさん
2023/05/10(水) 12:58:40.69ID:ji6HZ6my >>220
あえて言うと、もともと歴史的には明朝体(印刷用)字体と楷書体(手書き)字体の差なので、手書きの時にマになるのが普通のこと。
「はしご高」とかも本来は楷書体(手書き用)で、明朝体(印刷用)は「くち高」。
この辺の歴史を忘れちゃって別字だ同字だ異字体だと言って混乱してるのが現代人。もともとは単に書体の違い。
あえて言うと、もともと歴史的には明朝体(印刷用)字体と楷書体(手書き)字体の差なので、手書きの時にマになるのが普通のこと。
「はしご高」とかも本来は楷書体(手書き用)で、明朝体(印刷用)は「くち高」。
この辺の歴史を忘れちゃって別字だ同字だ異字体だと言って混乱してるのが現代人。もともとは単に書体の違い。
223デフォルトの名無しさん
2023/05/10(水) 15:58:11.20ID:fhY7dZBk 昔は詳しくない層はうろおぼえで何となく近い文字を同じ文字と認識してたんだろうけど
今は正確に同じ形を出力できるようになったぶん「なんか違うぞ」と目に留まりやすくなってしまったんだな
今は正確に同じ形を出力できるようになったぶん「なんか違うぞ」と目に留まりやすくなってしまったんだな
224デフォルトの名無しさん
2023/05/10(水) 16:41:18.39ID:ji6HZ6my 悪いのは学校教育。
昔の人は明朝体と楷書体は完全に別物という認識で区別がついてた。本とか新聞とかで見るのが明朝体。手書きは楷書体、戸籍は手書きなので楷書体だった。
ところが明朝体と楷書体の両方の特徴をもった中間の「教科書体」という書体を作って小学校で文字を教えるようになった。このせいで多くの人にとって書体間の差が良く分からなくなってる。
書道とか専門的なことをやれば気付くのだが、普通の人は明朝体と楷書体の違いが理解できない。
というか両方間違いで中間の教科書体が一般的文字と信じてる。そういう現状に合わせるためにフォントの明朝体や楷書体も学校教育文字については教科書体に近づけるようデザインされるようになってる。
昔の人は明朝体と楷書体は完全に別物という認識で区別がついてた。本とか新聞とかで見るのが明朝体。手書きは楷書体、戸籍は手書きなので楷書体だった。
ところが明朝体と楷書体の両方の特徴をもった中間の「教科書体」という書体を作って小学校で文字を教えるようになった。このせいで多くの人にとって書体間の差が良く分からなくなってる。
書道とか専門的なことをやれば気付くのだが、普通の人は明朝体と楷書体の違いが理解できない。
というか両方間違いで中間の教科書体が一般的文字と信じてる。そういう現状に合わせるためにフォントの明朝体や楷書体も学校教育文字については教科書体に近づけるようデザインされるようになってる。
225デフォルトの名無しさん
2023/05/10(水) 16:48:21.44ID:ji6HZ6my 日本の明朝体フォントの「令」は珍しく昔ながらの明朝体の字形が残っていて、教科書体(楷書)寄りに改変されてないので、手書きと違う字形になってる。
226デフォルトの名無しさん
2023/05/10(水) 19:09:23.30ID:2bIvyILU ※1 どうしてもunicodeのCJK総合漢字から新字体と繁体字と簡体字を切り離してリストアップしたかったんです
散々調べて下のそれっぽいコード例を発見するものの、さっぱりで残念
ttps://qiita.com/Saqoosha/items/927e9d6e77922ad9f08a
膨大にある造語めいた気持ち悪い繁体字と簡体字をPC環境から排除するため、フィルターへそれらのunicodeを登録したいのです
繁体字または簡体字のunicodeリスト、メモ帳などへ抽出したテキストリスト、上記目的を達するのに最適なソフトなど
何かしら情報はないものでしょうか
※2
unicodeを紹介してくださるサイトを、そのまま丸コピして手元へ資料化すれば?と考えるものの著作面で不安
HTTrackというオープンソースのソフトを発見しましたが、古い上にソフトへ通信権限を与える類いのようで、下手なネトゲよりリスク高い
何より資料として閲覧可能になるのは嬉しいものの、繁体字と簡体字を排除する本来の目的に沿わない
↑全てをすっとばして、CJK総合漢字から気持ち悪い繁体字と簡体字のunicodeを抽出する方法、既存のファイルやリストなど、がありましたら解決する話です
アドバイスくださいm(vv)m
散々調べて下のそれっぽいコード例を発見するものの、さっぱりで残念
ttps://qiita.com/Saqoosha/items/927e9d6e77922ad9f08a
膨大にある造語めいた気持ち悪い繁体字と簡体字をPC環境から排除するため、フィルターへそれらのunicodeを登録したいのです
繁体字または簡体字のunicodeリスト、メモ帳などへ抽出したテキストリスト、上記目的を達するのに最適なソフトなど
何かしら情報はないものでしょうか
※2
unicodeを紹介してくださるサイトを、そのまま丸コピして手元へ資料化すれば?と考えるものの著作面で不安
HTTrackというオープンソースのソフトを発見しましたが、古い上にソフトへ通信権限を与える類いのようで、下手なネトゲよりリスク高い
何より資料として閲覧可能になるのは嬉しいものの、繁体字と簡体字を排除する本来の目的に沿わない
↑全てをすっとばして、CJK総合漢字から気持ち悪い繁体字と簡体字のunicodeを抽出する方法、既存のファイルやリストなど、がありましたら解決する話です
アドバイスくださいm(vv)m
227デフォルトの名無しさん
2023/05/10(水) 19:40:22.77ID:2/j8QX9l 意味不
統合されてるんだし
統合されてるんだし
228デフォルトの名無しさん
2023/05/10(水) 20:38:34.78ID:2bIvyILU unicodeにおけるcjk統合漢字は、一つの意味に対する漢字を〇△□×と横並びさせて、それを終えてから次の意味の漢字へ移行する配列となっています
だからこそ〇しか要らないのに4E00から9FF0の中で膨大な△□×という文字のゴミが無作為に溢れてしまうのです
しかも支那は性懲りもなく使いもしないゴミ文字を未だに造り続けているので、unicodeは5桁にまで膨れ上がっています(そろそろ整理しろよ!新語を作んなボケが!!使わねー字なら抹消しろ!と)
「漢字」と一括りにするのではなく、そこから真に必要で有用な新字体のみを抽出したい、あるいはフィルター用に新字体以外のゴミunicodeリストを欲しい、と思うのは必然ではないでしょうか
そのくらい、今の支那はあらゆる分野で癌と化していますよ^^;
だからこそ〇しか要らないのに4E00から9FF0の中で膨大な△□×という文字のゴミが無作為に溢れてしまうのです
しかも支那は性懲りもなく使いもしないゴミ文字を未だに造り続けているので、unicodeは5桁にまで膨れ上がっています(そろそろ整理しろよ!新語を作んなボケが!!使わねー字なら抹消しろ!と)
「漢字」と一括りにするのではなく、そこから真に必要で有用な新字体のみを抽出したい、あるいはフィルター用に新字体以外のゴミunicodeリストを欲しい、と思うのは必然ではないでしょうか
そのくらい、今の支那はあらゆる分野で癌と化していますよ^^;
229デフォルトの名無しさん
2023/05/10(水) 20:39:15.54ID:2bIvyILU ですよねえ・・・
qiita.com/Saqoosha/items/927e9d6e77922ad9f08aさんの例がまさに自分の環境でも活用可能な案だったのですが、古い上によく分からなくて^^;
日本語に用いられる漢字=新字体は、象形文字状態の造語・当て字ばかりで非文明的な繁体字・簡体字と比較すると、めちゃくちゃ秀逸かつ言語内に上手く纏められているんですよ
集約とも言えます
1949年の内閣すげー!!!
それも平仮名や片仮名という3種の文字列を組み合わせて歌を詠んだり、そうした世界屈指の難解な文字文化を経たからこそ、私達の先祖は新字体という完成度の高いものを作れたんでしょう
今現在、支那チョンに使われる言葉の多くは「日本語由来」ですしね・・・
文字においても漢字なのに新字体が一番最初に確立されている不思議
その史実を虚偽で覆い隠さんと、いつもの共産圏の捏造焼き畑で無駄な簡体字が、延々造られ続け、unicodeを圧迫しているのが昨今の実情です
やることなすことGと一緒で美も詫び寂びも無い、ただ増えるだけの癌に等しい存在と価値観が、まさにチャイナの本質ですね^^;
qiita.com/Saqoosha/items/927e9d6e77922ad9f08aさんの例がまさに自分の環境でも活用可能な案だったのですが、古い上によく分からなくて^^;
日本語に用いられる漢字=新字体は、象形文字状態の造語・当て字ばかりで非文明的な繁体字・簡体字と比較すると、めちゃくちゃ秀逸かつ言語内に上手く纏められているんですよ
集約とも言えます
1949年の内閣すげー!!!
それも平仮名や片仮名という3種の文字列を組み合わせて歌を詠んだり、そうした世界屈指の難解な文字文化を経たからこそ、私達の先祖は新字体という完成度の高いものを作れたんでしょう
今現在、支那チョンに使われる言葉の多くは「日本語由来」ですしね・・・
文字においても漢字なのに新字体が一番最初に確立されている不思議
その史実を虚偽で覆い隠さんと、いつもの共産圏の捏造焼き畑で無駄な簡体字が、延々造られ続け、unicodeを圧迫しているのが昨今の実情です
やることなすことGと一緒で美も詫び寂びも無い、ただ増えるだけの癌に等しい存在と価値観が、まさにチャイナの本質ですね^^;
230デフォルトの名無しさん
2023/05/10(水) 22:10:37.95ID:ji6HZ6my 文字コードのことも漢字のことも何も分かってなくて草。
お前は日本語専用フォント使っとけ。
お前は日本語専用フォント使っとけ。
231デフォルトの名無しさん
2023/05/10(水) 23:58:51.60ID:2bIvyILU まあ、統合なんてせず、他はどうでもいいから新字体だけは別枠でunicodeに登録してほしかったですね
そうすれば、ここからここまで理論で新字体とそうでないゴミ象形オナニー文字とを正負ともに区別出来たんですわ・・・
他の地域はそれぞれの民族単位で登録されていたり、誤差の範囲内でもきっちり枠が設けられているのに
東アジアの区分だけ何故かごちゃ混ぜで笑えますよ(拡張ABCDとかやってる暇あんなら新字体だけでも別枠にしろ!)
unicodeを制定する世界の上層部が、如何にアジア圏をどうでもよく考え、雑に一括りとしているか分かる話ですなw
そうすれば、ここからここまで理論で新字体とそうでないゴミ象形オナニー文字とを正負ともに区別出来たんですわ・・・
他の地域はそれぞれの民族単位で登録されていたり、誤差の範囲内でもきっちり枠が設けられているのに
東アジアの区分だけ何故かごちゃ混ぜで笑えますよ(拡張ABCDとかやってる暇あんなら新字体だけでも別枠にしろ!)
unicodeを制定する世界の上層部が、如何にアジア圏をどうでもよく考え、雑に一括りとしているか分かる話ですなw
232デフォルトの名無しさん
2023/05/11(木) 13:57:18.45ID:zT2biEt2 文字コード | 衆議院議員 河野太郎公式サイト
https://www.taro.org/2023/05/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89.php
https://www.taro.org/2023/05/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89.php
233デフォルトの名無しさん
2023/05/11(木) 19:45:15.85ID:KOkRWEaK234デフォルトの名無しさん
2023/05/12(金) 01:04:14.69ID:O4GoEXjP 国賊親子だからそうやって日本の国体を壊し、貧困化の延長を謀るのがこいつらの本懐だからな^^;
自分達だけは生かされると思っているのだろうけど、支那の歴史は例外なく相手国で利敵に走った屑を真っ先に親類縁者ひっくるめて惨殺して口封じとした
俺らパンピーやその子孫が絶望の中にいるとき、こいつら当人は他界し、その子孫は既にもがき苦しんだ後っしょ
ま、俺らの将来も支那の臓器牧場候補だろうけど、その前に必ずこの国賊達が総じて臓器強奪や人肉食の材料になる点だけ、留飲を下げる要素だろうね
自分達だけは生かされると思っているのだろうけど、支那の歴史は例外なく相手国で利敵に走った屑を真っ先に親類縁者ひっくるめて惨殺して口封じとした
俺らパンピーやその子孫が絶望の中にいるとき、こいつら当人は他界し、その子孫は既にもがき苦しんだ後っしょ
ま、俺らの将来も支那の臓器牧場候補だろうけど、その前に必ずこの国賊達が総じて臓器強奪や人肉食の材料になる点だけ、留飲を下げる要素だろうね
235デフォルトの名無しさん
2023/05/12(金) 09:02:37.92ID:GoY4o9UG CJK統合漢字
https://ja.wikipedia.org/wiki/CJK%E7%B5%B1%E5%90%88%E6%BC%A2%E5%AD%97
1984年、ISOの文字コード規格委員会 (ISO/TC 97 - SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門のワークグループ (WG2) を設置した。当初、この文字コード規格は16ビットを想定し、その中に日本や中国など各国の漢字コード表をそのまま入れることを想定していた。しかし中国はこの方式では自国で現在策定中の漢字コードが全て入らなくなるとしてこの方針に反対し[要出典]、1989年、各国の漢字コードを統合した漢字集合HCCのアイデアを提案した。
1990年、完成したISO 10646の初版ドラフト (DIS 10646) では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、ワークグループはCJK-JRGと呼ばれるグループを別途設置し、そこで引き続き検討することにした。
https://ja.wikipedia.org/wiki/CJK%E7%B5%B1%E5%90%88%E6%BC%A2%E5%AD%97
1984年、ISOの文字コード規格委員会 (ISO/TC 97 - SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門のワークグループ (WG2) を設置した。当初、この文字コード規格は16ビットを想定し、その中に日本や中国など各国の漢字コード表をそのまま入れることを想定していた。しかし中国はこの方式では自国で現在策定中の漢字コードが全て入らなくなるとしてこの方針に反対し[要出典]、1989年、各国の漢字コードを統合した漢字集合HCCのアイデアを提案した。
1990年、完成したISO 10646の初版ドラフト (DIS 10646) では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、ワークグループはCJK-JRGと呼ばれるグループを別途設置し、そこで引き続き検討することにした。
236デフォルトの名無しさん
2023/05/12(金) 09:03:55.43ID:qO5bbQQ2237デフォルトの名無しさん
2023/05/13(土) 18:20:42.38ID:qjeq2TF1 漢字の場合、国・言語ごとの字形の違いは
アルファベット書きの単語における国・言語ごとの綴りの違いに近いと思う。
同源の単語であれば他言語の綴りで書かれても一応意味は分かるが、
決してそれが自然だとは思われない。
漢字は統合によって「元の綴りがどうだったか」の情報が残らなくなってしまったので
言語判定をさぼってフォールバックフォント表示を通常運用にしたような環境では
他言語の綴りに化けた文書に頻繁に遭遇することになり違和感が募る。
アルファベット書きの単語における国・言語ごとの綴りの違いに近いと思う。
同源の単語であれば他言語の綴りで書かれても一応意味は分かるが、
決してそれが自然だとは思われない。
漢字は統合によって「元の綴りがどうだったか」の情報が残らなくなってしまったので
言語判定をさぼってフォールバックフォント表示を通常運用にしたような環境では
他言語の綴りに化けた文書に頻繁に遭遇することになり違和感が募る。
238デフォルトの名無しさん
2023/05/13(土) 21:07:02.92ID:uFhfbSOD 同じ漢字でも、簡体字って全然読めないよ…
違和感なんてレベルじゃないよ、あれ…
違和感なんてレベルじゃないよ、あれ…
239デフォルトの名無しさん
2023/05/13(土) 21:56:00.31ID:i7WkhiEz おばあちゃんが書く門の略字体なんかは今の子読めなかったりするね
240デフォルトの名無しさん
2023/05/13(土) 22:43:36.36ID:wqzP/3o9 不思議な漢字と日本語──異体字の謎
https://tenki.jp/suppl/hiroyuki_koga/2015/05/18/3961.html
実は、意味も発音も同じなのに異なった字形の漢字は、紀元前約1600年前に中国で誕生した、漢字の原型である「甲骨文字」からあります。
このことはなにを示しているかというと、異体字は主に手書きの文字だからこそ生まれるということです。手書きであれば、点画が短いとか長いとか、おさえるとか払うとか表現が人によって変わってしまうことは当然ですね。それまで使われていた文字があるときにちょっと異なったふうに書かれて、それが誤字となって消えてしまうのではなく、多くの人がそう書くようになってある程度定着してしまう…しかも前の書き方も生きている…。これが異体字の源泉です。楷書、行書などの漢字のスタイルである「書体」も関係しています。
異体字は人名や地名に多いですね。
地名については、言ってみれば「なまり」のようなものだといってもいいかもしれません。人名であれば、漢字の字形の差が自分の個性のようなものと感じられて「渡邊」と書かれないと、自分ではないような気がする、といったことも起こってきます。
文字は社会のなかで共有されているものですから、自分勝手に書いていいというものではありません。ただ異体字だからといって、「間違っている文字」というわけでもないのです。正字・旧字・本字・俗字…といった区別は、漢字の使われ方を標準化するためにある社会・時代で便宜的に決められた「正しさ」の基準ですから、時代によって変わることもあります。日本でも当用漢字、常用漢字、人名漢字などとしょっちゅう漢字の枠組みが変化していることはご存知でしょう。
現在ではコンピューターや携帯電話などで表示できる漢字の数が飛躍的に増えたことで、この枠組がまた変化しています。時代の変化とともに、そして技術との関係で漢字はどんどん変化するものなのです。
https://tenki.jp/suppl/hiroyuki_koga/2015/05/18/3961.html
実は、意味も発音も同じなのに異なった字形の漢字は、紀元前約1600年前に中国で誕生した、漢字の原型である「甲骨文字」からあります。
このことはなにを示しているかというと、異体字は主に手書きの文字だからこそ生まれるということです。手書きであれば、点画が短いとか長いとか、おさえるとか払うとか表現が人によって変わってしまうことは当然ですね。それまで使われていた文字があるときにちょっと異なったふうに書かれて、それが誤字となって消えてしまうのではなく、多くの人がそう書くようになってある程度定着してしまう…しかも前の書き方も生きている…。これが異体字の源泉です。楷書、行書などの漢字のスタイルである「書体」も関係しています。
異体字は人名や地名に多いですね。
地名については、言ってみれば「なまり」のようなものだといってもいいかもしれません。人名であれば、漢字の字形の差が自分の個性のようなものと感じられて「渡邊」と書かれないと、自分ではないような気がする、といったことも起こってきます。
文字は社会のなかで共有されているものですから、自分勝手に書いていいというものではありません。ただ異体字だからといって、「間違っている文字」というわけでもないのです。正字・旧字・本字・俗字…といった区別は、漢字の使われ方を標準化するためにある社会・時代で便宜的に決められた「正しさ」の基準ですから、時代によって変わることもあります。日本でも当用漢字、常用漢字、人名漢字などとしょっちゅう漢字の枠組みが変化していることはご存知でしょう。
現在ではコンピューターや携帯電話などで表示できる漢字の数が飛躍的に増えたことで、この枠組がまた変化しています。時代の変化とともに、そして技術との関係で漢字はどんどん変化するものなのです。
241デフォルトの名無しさん
2023/05/14(日) 00:10:02.53ID:28vpFfrh242デフォルトの名無しさん
2023/05/14(日) 00:59:04.93ID:hyIJBQi4 中国語での発音が同じという観点で共産党が簡体字を作ったので
日本の老人とは関係ない
日本の老人とは関係ない
243デフォルトの名無しさん
2023/05/14(日) 03:20:42.61ID:c+bjkz0t 簡体字には二種類の起源があって、難しい漢字のかわりに手書きの略字を形を整えて正式採用したものと、めったに使わない漢字を廃止して意味や音の似た別字で置き換えたもの。(民間の手書きでは難しい字を宛て字で置き換えるのがよくある話)
実は日本語でも政府は同じようなことをやってる。「編輯」の「輯」を廃止して別字の「集」にするよう指示したり、「叡智」を別字の「英知」に置き換えたり。
中国(大陸)は日本より徹底的実行しただけ。
実は日本語でも政府は同じようなことをやってる。「編輯」の「輯」を廃止して別字の「集」にするよう指示したり、「叡智」を別字の「英知」に置き換えたり。
中国(大陸)は日本より徹底的実行しただけ。
244デフォルトの名無しさん
2023/05/14(日) 04:03:24.17ID:+AQkW+Hc 英知バウ子
245デフォルトの名無しさん
2023/05/14(日) 04:07:03.99ID:S56KB+xo >>243
障碍→障害は酷すぎた
障碍→障害は酷すぎた
246デフォルトの名無しさん
2023/05/14(日) 04:45:02.11ID:Cyit5h6Q247デフォルトの名無しさん
2023/05/14(日) 08:40:55.72ID:c+bjkz0t >>246
昔から両方あるけど、違う意味で使い分けられていた。
障碍:じゃまな物があって進められないこと
障害:危害を加えられて進められないこと
当用漢字で碍を害に置き換えたせいで、この2つが衝突した。「妨碍」を「妨害」に統合した関係も似たような感じ。前者は邪魔な物を置いて、後者は傷を負わせて。
昔から両方あるけど、違う意味で使い分けられていた。
障碍:じゃまな物があって進められないこと
障害:危害を加えられて進められないこと
当用漢字で碍を害に置き換えたせいで、この2つが衝突した。「妨碍」を「妨害」に統合した関係も似たような感じ。前者は邪魔な物を置いて、後者は傷を負わせて。
248デフォルトの名無しさん
2023/05/14(日) 08:44:30.56ID:c+bjkz0t 碍を害と統合するとか unicode 以上の暴挙。
国語審議会には漢字廃止論者がいたので仕方ないね。
国語審議会には漢字廃止論者がいたので仕方ないね。
249デフォルトの名無しさん
2023/05/14(日) 11:32:59.03ID:hyIJBQi4 近頃は漢字を使うことをあきらめているケースも多いよね
こ線橋とか
こ線橋とか
250デフォルトの名無しさん
2023/05/14(日) 15:13:31.89ID:+xFqdUJk こうしちゃおう
跨線橋
↓
股線橋
跨線橋
↓
股線橋
251デフォルトの名無しさん
2023/05/14(日) 16:03:06.41ID:CQAZebBv252デフォルトの名無しさん
2023/05/14(日) 18:31:54.44ID:c+bjkz0t >>251
俗説でも何でもないだろうが。
引用されてるやつも、昔から混用があったことを指摘してるだけで、害と碍が統合可能な根拠などどこにも示していない。
難しい漢字や頻度の低い字を同じ音の別の漢字で代用するのは大昔からあった習慣。それこそ甲骨文字の頃からある。
しかしあくまで代用は代用。
俗説でも何でもないだろうが。
引用されてるやつも、昔から混用があったことを指摘してるだけで、害と碍が統合可能な根拠などどこにも示していない。
難しい漢字や頻度の低い字を同じ音の別の漢字で代用するのは大昔からあった習慣。それこそ甲骨文字の頃からある。
しかしあくまで代用は代用。
253デフォルトの名無しさん
2023/05/14(日) 18:40:36.33ID:c+bjkz0t 戦争で片足を失った。→ 身体を傷つけられているので「障害」でOK
生まれつき目が見えない。→ 誰かに危害を加えられた訳ではないので「障害」はNG
使った例があるかどうかじゃなくて、正しく使われてるかの問題。
生まれつき目が見えない。→ 誰かに危害を加えられた訳ではないので「障害」はNG
使った例があるかどうかじゃなくて、正しく使われてるかの問題。
254デフォルトの名無しさん
2023/05/14(日) 18:47:52.94ID:sJ4QSX2k >当用漢字で碍を害に置き換えたせいで、
嘘はここだな。
その流れは戦前からあったと。
嘘はここだな。
その流れは戦前からあったと。
255デフォルトの名無しさん
2023/05/14(日) 18:50:56.65ID:c+bjkz0t >>254
昔から混用があったのと、政府が正式に使用を禁止したのでは全然意味が違う。
昔から混用があったのと、政府が正式に使用を禁止したのでは全然意味が違う。
256デフォルトの名無しさん
2023/05/14(日) 18:56:05.62ID:sJ4QSX2k >当用漢字で碍を害に置き換えたせいで、この2つが衝突した。
せいで衝突したんじゃないな。
せいで衝突したんじゃないな。
257デフォルトの名無しさん
2023/05/14(日) 18:58:21.13ID:c+bjkz0t >>256
衝突してるじゃん。学識がある人には使い分けができてたのに、使い分けが禁止になってる。
衝突してるじゃん。学識がある人には使い分けができてたのに、使い分けが禁止になってる。
258デフォルトの名無しさん
2023/05/14(日) 19:08:36.54ID:sJ4QSX2k それよりも前から衝突はしてるだろう。
あと当用漢字をそれ以外の「禁止」とするのもまた嘘だろう。
学識がある人はあれと「禁止」は区別がつくから心配には及ばないだろう。
あと当用漢字をそれ以外の「禁止」とするのもまた嘘だろう。
学識がある人はあれと「禁止」は区別がつくから心配には及ばないだろう。
259デフォルトの名無しさん
2023/05/14(日) 19:12:14.69ID:c+bjkz0t 話を戻すと大陸の簡体字も同じやり口。
「機」の略字が「机」なわけではなくて、難しい漢字の「機」を廃止するんで、同じ音の「机」を使ってね。民間の手書きとかなら机って書いて人もいただろみたいなの。
「機」の略字が「机」なわけではなくて、難しい漢字の「機」を廃止するんで、同じ音の「机」を使ってね。民間の手書きとかなら机って書いて人もいただろみたいなの。
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 国内ホテル、既にキャンセルも 訪日客関連業界、事態見守る ★3 [蚤の市★]
- 橋下徹氏 外務省幹部の訪中受け「口だけ番長」へ痛烈指摘 「喧嘩は日本の完敗…なんとかっこ悪い日本か」 [冬月記者★]
- 習政権、高市首相への態度硬化 台湾有事発言で連日非難 中国 ★11 [ぐれ★]
- 【外国人問題】小野田紀美担当相「不法就労や不法滞在は許さない」 [シャチ★]
- 【野球】井端監督 大谷翔平、山本由伸らのWBCへの参加 「1日も早く返事ほしい」「待っててといっても、国内組が遅くなってしまう」★3 [冬月記者★]
- 経団連会長、日中は建設的対話を 経済3団体が高市首相と初会談も日中関係は話題に登らず… [BFU★]
- 中国「高市が頭を下げて謝罪しない限り、絶対に許さない」 [329329848]
- 🏡
- 今季最強寒気襲来!!!!
- 【高市早苗】習近平激怒か [115996789]
- 橋下徹「口だけ番長の日本が中国に喧嘩負け。なんとカッコ悪い日本か!」高市にバチーン!✴ [153490809]
- 今猛烈に食べたいもの挙げてけwwwwwwww
