プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
探検
文字コード総合スレ Part10 [転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2015/10/14(水) 20:29:00.08ID:xctG4AAd2015/10/14(水) 20:30:38.15ID:xctG4AAd
■参考サイト
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
IANA: Character Sets
http://www.iana.org/assignments/character-sets
Legacy Encoding Project
http://sourceforge.jp/projects/legacy-encoding/
CP50220
森山さんの説明
http://lists.sourceforge.jp/mailman/archives/legacy-encoding-talk-ja/2006-March/000002.html
JISX4061
日本語文字列照合順番
http://www.jisc.go.jp/
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
IANA: Character Sets
http://www.iana.org/assignments/character-sets
Legacy Encoding Project
http://sourceforge.jp/projects/legacy-encoding/
CP50220
森山さんの説明
http://lists.sourceforge.jp/mailman/archives/legacy-encoding-talk-ja/2006-March/000002.html
JISX4061
日本語文字列照合順番
http://www.jisc.go.jp/
2015/10/14(水) 20:31:02.98ID:xctG4AAd
■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
内部的には Unicode -> CP932 -> CP5022x って変換な気もする
・人名をソートかけたらバストサイズ順の並びになる?
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる)
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた?
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に
機種依存文字はサポートされるか?
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件
・なぜ携帯業界はunicode化しないのか?
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
内部的には Unicode -> CP932 -> CP5022x って変換な気もする
・人名をソートかけたらバストサイズ順の並びになる?
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる)
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた?
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に
機種依存文字はサポートされるか?
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件
・なぜ携帯業界はunicode化しないのか?
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
2015/10/14(水) 20:31:39.28ID:xctG4AAd
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「?心」簡化政策によると「?(U+6076)」に統一。口偏+?(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか)
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは?
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ
UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで)
サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い)
((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。
・Unicodeサニタイズが面倒になるのか
・中国語の「?心」簡化政策によると「?(U+6076)」に統一。口偏+?(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか)
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは?
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ
UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで)
サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い)
((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。
・Unicodeサニタイズが面倒になるのか
2015/10/14(水) 20:31:59.03ID:xctG4AAd
・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ? → ウンコマークもUnicodeに追加されるんだな。
・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定
→ ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
コントロールパネル-地域と言語のオプション-[言語]タブで
「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か?海栗コードへの挿入は難しい。そこでTRONだ!!
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る?
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10%増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。
・ところでケータイのUnicode対応度って実際どうよ? → ウンコマークもUnicodeに追加されるんだな。
・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定
→ ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
コントロールパネル-地域と言語のオプション-[言語]タブで
「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か?海栗コードへの挿入は難しい。そこでTRONだ!!
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る?
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10%増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。
2015/10/14(水) 23:23:47.69ID:obUlIRbX
2015/10/14(水) 23:28:48.06ID:+mXu/6rb
もうひとつの過去スレ:
文字コード統一スレ 1文字目
http://pc8.2ch.net/test/read.cgi/tech/1109171258/
隔離スレ:
UnicodeとUTF-8の違いは?
http://pc12.2ch.net/test/read.cgi/tech/1177930957/
UnicodeとUTF-8の違いは? その2
http://hibari.2ch.net/test/read.cgi/tech/1274937437/
UnicodeとUTF-8の違いは? その2
http://toro.2ch.net/test/read.cgi/tech/1291075205/
UnicodeとUTF-8の違い4(インディアン隔離スレ)
http://toro.2ch.net/test/read.cgi/tech/1342963035/
文字コード統一スレ 1文字目
http://pc8.2ch.net/test/read.cgi/tech/1109171258/
隔離スレ:
UnicodeとUTF-8の違いは?
http://pc12.2ch.net/test/read.cgi/tech/1177930957/
UnicodeとUTF-8の違いは? その2
http://hibari.2ch.net/test/read.cgi/tech/1274937437/
UnicodeとUTF-8の違いは? その2
http://toro.2ch.net/test/read.cgi/tech/1291075205/
UnicodeとUTF-8の違い4(インディアン隔離スレ)
http://toro.2ch.net/test/read.cgi/tech/1342963035/
2015/10/14(水) 23:29:44.73ID:+mXu/6rb
■ライブラリ
IBM Globalization - ICU
http://www-306.ibm.com/software/globalization/icu/
NKF32.DLL
http://www.vector.co.jp/soft/win95/util/se020949.html
バベル
http://tricklib.com/cxx/ex/babel/
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
http://tricklib.com/cxx/ex/babel/scoremap.csv
mlang
http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx
iconv
http://www.gnu.org/software/libiconv/
ICU
http://www.icu-project.org/
IBM Globalization - ICU
http://www-306.ibm.com/software/globalization/icu/
NKF32.DLL
http://www.vector.co.jp/soft/win95/util/se020949.html
バベル
http://tricklib.com/cxx/ex/babel/
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
http://tricklib.com/cxx/ex/babel/scoremap.csv
mlang
http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx
iconv
http://www.gnu.org/software/libiconv/
ICU
http://www.icu-project.org/
2015/10/14(水) 23:30:41.28ID:+mXu/6rb
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
あるいはhttp://masaka.dw.land.to/mr/jmr.phpとか。
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
あるいはhttp://masaka.dw.land.to/mr/jmr.phpとか。
2015/10/14(水) 23:31:54.53ID:+mXu/6rb
JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
http://std.dkuug.dk/JTC1/SC2/WG2/
ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
http://appsrv.cse.cuhk.edu.hk/~irg/
http://std.dkuug.dk/JTC1/SC2/WG2/
ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
http://appsrv.cse.cuhk.edu.hk/~irg/
2015/10/15(木) 18:31:09.40ID:xOsbEBDE
>>4が化けてるな前スレもだが
2015/10/15(木) 18:40:33.47ID:jm/ZzoYR
4とか5とかもう引き継がなくていいのでは
2015/10/16(金) 16:24:02.87ID:rHUq12EW
&#x6076;
2015/10/16(金) 16:24:47.61ID:rHUq12EW
恶
2015/10/17(土) 20:16:21.68ID:E+N5KQ+e
文化庁の文化審議会漢字小委員会は16日、漢字の手書き文字について、「とめる」か「はらう」かなど、細部にこだわって正誤を判断せず、多様な字形を認めるべきだとする指針の中間報告案をまとめた。
2015/10/18(日) 22:08:48.48ID:/JqZyvWj
明日から松江でWG2らしいけど文書非公開だと流れが追えなくてつまらんな
2015/10/19(月) 00:12:31.07ID:Vwmjvaq0
うむつまらん
2015/10/22(木) 19:44:06.99ID:HJqUYTXB
Unicodeおじさんがミラーしてくれた
http://www.unicode.org/wg2/docs/
Nushuが1b170からになってるってことはKana Supplementがそこまで広がったのかな
http://www.unicode.org/wg2/docs/
Nushuが1b170からになってるってことはKana Supplementがそこまで広がったのかな
2015/10/24(土) 00:34:11.18ID:5L65oHkd
2015/10/25(日) 03:36:16.82ID:fgAWLXG9
2015/10/25(日) 12:49:19.83ID:ekYyyren
>>12
引き継がないとはどういう意味ですか?
引き継がないとはどういう意味ですか?
2015/10/25(日) 18:50:42.59ID:zgU7ZYeY
3-5と9はもうテンプレから外していいんじゃないかなって話かと
20も言うように古いし更新されてないしどういう文脈の話かわからないのもあるし
レス番指定してるレスが混じってるけどPart何スレかもわからないしよく見ると色々あれ
20も言うように古いし更新されてないしどういう文脈の話かわからないのもあるし
レス番指定してるレスが混じってるけどPart何スレかもわからないしよく見ると色々あれ
2015/10/25(日) 19:24:02.31ID:A/UjGnAW
2015/10/25(日) 19:33:16.94ID:8Ekj0BDy
>>9は議論の軌跡としては正しいのかも知れないけど内容が間違いだらけなので消した方が吉
2015/10/26(月) 20:48:28.23ID:hvOVpGBH
絵文字馬鹿のOむかつく
とっとと干されりゃいいのに
とっとと干されりゃいいのに
2015/10/27(火) 07:41:18.41ID:ecThD4uO
ほんとにな
他に実績ない絵を字として登録してない?
そのうちLINEスタンプとか報道写真も登録するんじゃねえの。
一方で互換性ガー言って過去のミス登録を修正しないし。
WAVE DASH例示字形ですら25年かかるという無能揃いの組織。
過去版との互換性なんかとうの昔になくなってるのに。
他に実績ない絵を字として登録してない?
そのうちLINEスタンプとか報道写真も登録するんじゃねえの。
一方で互換性ガー言って過去のミス登録を修正しないし。
WAVE DASH例示字形ですら25年かかるという無能揃いの組織。
過去版との互換性なんかとうの昔になくなってるのに。
2015/10/27(火) 23:40:44.85ID:b1wh6dDM
Unicodeコンソーシアムがアレなのは否定しないってか同意だが
WAVE DASHの問題はMSが独自の変換表を使ってるからなので
正直例示字形だけ直されてもあまり意味がってか字形だけならWindows Vista以降修正されてるし
いやそりゃ正しい波の形になったから気分はすっきりするけど。
WAVE DASHの問題はMSが独自の変換表を使ってるからなので
正直例示字形だけ直されてもあまり意味がってか字形だけならWindows Vista以降修正されてるし
いやそりゃ正しい波の形になったから気分はすっきりするけど。
2015/10/28(水) 02:14:09.30ID:6/ByidLc
ってか全角チルダのほうの字形(?)を上に寄せてくれんかな。
2015/10/28(水) 07:10:47.43ID:en6I5N16
>WAVE DASHの問題はMSが独自の変換表を使ってるから
どうしてこういう見え透いた嘘を平気でつけるんだろうか
どうしてこういう見え透いた嘘を平気でつけるんだろうか
2015/10/29(木) 20:27:41.85ID:Lz+b+/gX
>>29
無知?それとも俺には問題ないという青年の主張?
無知?それとも俺には問題ないという青年の主張?
2015/11/02(月) 21:17:58.86ID:AsQYV5Wm
>>29
勉強し直そうね
勉強し直そうね
2015/11/02(月) 21:18:31.16ID:AsQYV5Wm
>>28
ほんまそれ
ほんまそれ
2015/11/03(火) 04:49:27.68ID:i5nTnJv9
逆Sの記号ってなんでないんだろう?
2015/11/03(火) 05:49:15.31ID:zO1n76ez
M?
2015/11/03(火) 07:38:16.60ID:sxF23lrF
Ƨ
2015/11/03(火) 17:26:02.76ID:P1Dl09Tr
クローゼットの中にそういうハンガーみたいな金具たくさん入ってるけど
どういうときに使えるのか未だにわからない。
どういうときに使えるのか未だにわからない。
2015/11/04(水) 00:41:30.22ID:L8/5F95r
肩の厚みのあるハンガーをたくさんかけると、
スペースが無駄になるので互い違いに高さを変える。
スペースが無駄になるので互い違いに高さを変える。
2015/11/04(水) 01:28:04.95ID:uMca4o1w
向きが90度ずれない?
S字のを2個連結すれば戻るけど2個使い前提の道具なの?
S字のを2個連結すれば戻るけど2個使い前提の道具なの?
2015/11/04(水) 16:58:03.51ID:QtO4ndAT
2015/11/05(木) 23:49:21.72ID:clXjiXU8
スレ違いかもしれんが
ネットで、ある日本語のテキストファイルを見たら化け化けだった
3分の1くらいのみ見れる
これをブラウザで簡体字中国語を選ぶと見れるという書き込みを見つけたので、
そうしたら見れた
これはどういうこと?
中国語扱う人が日本語をGB2312でエンコードしてたってこと?
ネットで、ある日本語のテキストファイルを見たら化け化けだった
3分の1くらいのみ見れる
これをブラウザで簡体字中国語を選ぶと見れるという書き込みを見つけたので、
そうしたら見れた
これはどういうこと?
中国語扱う人が日本語をGB2312でエンコードしてたってこと?
2015/11/05(木) 23:59:17.68ID:gSAo/oaU
ふつうに考えるとそうだろうな
2015/11/06(金) 06:30:43.46ID:6Ax8SlYK
2015/11/07(土) 23:09:16.59ID:NHx999Nj
2015/11/08(日) 14:35:15.95ID:y8uRNach
お国自慢絵文字か。文字コードに押し込もうというわけでなければ、
ありふれたご当地ゆるキャラを何匹か並べたら大体同じ趣旨の日本版になるな。
ありふれたご当地ゆるキャラを何匹か並べたら大体同じ趣旨の日本版になるな。
2015/11/08(日) 17:13:00.26ID:BjW4Fik6
絵文字は文字以上に定義も難しいしキリがないからユーザー外字領域に閉じ込めておけばよかったのに。
2015/11/09(月) 00:23:08.17ID:loOQ2SCd
作った奴と押し込む奴は往々にして別、
2015/11/09(月) 01:28:50.80ID:9QpSgphP
>>46
?
?
2015/11/09(月) 07:42:22.13ID:L+fm0eEi
さすがに、外字領域での大規模な運用ぐらいはされてないと押し込みの提案も出ないんじゃなかろうか
2015/11/09(月) 09:49:40.58ID:Yjqxj+LL
nokiaの端末に入っちゃったんでしょう?
2015/11/09(月) 14:08:54.96ID:wh2HsxEX
Unicode 10.0あたりになったら収録されるんだろうか?
2015/11/09(月) 22:16:17.29ID:yLbPQAdL
>>49
そうなの?文字として?
そうなの?文字として?
2015/11/09(月) 23:44:45.41ID:BJx9eA+t
ビットコインマーク、Unicodeに収録へ | スラド IT
http://it.srad.jp/story/15/11/09/055230/
Bitcoin 'B' Approved By Computer Text Standards Body
http://www.coindesk.com/bitcoin-unicode-symbol-approval/
http://www.unicode.org/L2/L2015/15229-bitcoin-sign.pdf
http://it.srad.jp/story/15/11/09/055230/
Bitcoin 'B' Approved By Computer Text Standards Body
http://www.coindesk.com/bitcoin-unicode-symbol-approval/
http://www.unicode.org/L2/L2015/15229-bitcoin-sign.pdf
2015/11/10(火) 12:10:29.99ID:tU9IcOly
ペリカもはよ
54デフォルトの名無しさん
2015/11/11(水) 22:12:58.76ID:mDE1AFdu ぼ
さ
ん
さ
ん
55& ◆Pw.ZL0FkaP42
2015/11/11(水) 22:13:45.21ID:mDE1AFdu s
2015/11/11(水) 22:23:37.04ID:rMaJFptQ
GB2312に平仮名、片仮名が収録されているというのも不可解なもんだ。
あいつら反日、嫌日のはずなのに。
あいつら反日、嫌日のはずなのに。
2015/11/11(水) 23:13:58.34ID:oIjjO58x
シュエエアィサィ的な使い方を想定していたんじゃなかろうか
2015/11/12(木) 23:09:21.24ID:fGMv4NR4
しかも簡体字フォントの仮名のデザインが脱力。
日本語版Windowsにも標準で付いている。たぶんMacにも。
日本語版Windowsにも標準で付いている。たぶんMacにも。
2015/11/13(金) 14:48:06.39ID:tDbTQZeN
韓国のKS C 5601(KS X 1001)にも平仮名、片仮名入ってるし
単にJIS C 6226(JIS X 0208)の構造コピーして必要なところ以外はそのまま放置しただけなんじゃ……。
単にJIS C 6226(JIS X 0208)の構造コピーして必要なところ以外はそのまま放置しただけなんじゃ……。
2015/11/13(金) 16:17:05.05ID:UEuwKYUJ
日本語の文章捏造するために必要だから
2015/11/13(金) 17:57:15.36ID:P1S0o/po
GBKはX 0208をベースに作った
韓国はX 0208をパクった上に起源を主張し出した
韓国はX 0208をパクった上に起源を主張し出した
2015/11/14(土) 12:15:58.19ID:cxUMG3m7
そういうのは嫌韓嫌中スレでやってねw
63デフォルトの名無しさん
2015/11/14(土) 16:21:16.08ID:JBEqdozk Androidでのダウンロードしたアプリのapkファイルを取り出してESファイルエクスプローラというアプリでapkファイルの拡張子をzipにして中身を見てるんだけど文字化けしてみえない
どの文字コードにしても見えない
どの文字コードにしても見えない
2015/11/14(土) 16:31:04.02ID:1yIT8GQx
文字コード関係なし
2015/11/18(水) 16:49:52.57ID:UgIpz7zK
すみません
今ISO-IRの資料を収集してるんですが
http://www.itscj.ipsj.or.jp/ISO-IR/232mapping.txt
の対応表ファイル持ってる方いらっしゃいませんか?
PDFはサーバーにデータ残ってるみたいで保存出来たんですが
他は消されちゃったみたいなんですよね。。。
今ISO-IRの資料を収集してるんですが
http://www.itscj.ipsj.or.jp/ISO-IR/232mapping.txt
の対応表ファイル持ってる方いらっしゃいませんか?
PDFはサーバーにデータ残ってるみたいで保存出来たんですが
他は消されちゃったみたいなんですよね。。。
2015/11/19(木) 01:28:49.91ID:Cr0FNu0Z
2015/11/20(金) 02:58:25.44ID:n24r8VSJ
人名漢字など「文字情報基盤」約6万字の暫定私用コードと対応フォント公開 -INTERNET Watch
http://internet.watch.impress.co.jp/docs/news/20151117_731123.html
http://internet.watch.impress.co.jp/docs/news/20151117_731123.html
2015/11/20(金) 16:27:32.87ID:Q3IEXjzg
>>66
そう、これです!
ありがとうございます!
ずっと
http://www.itscj.ipsj.or.jp/〜
と
http://kikaku.itscj.ipsj.or.jp/〜
の方ばかり探してたんですが、
https://の方にまだあったんですね、気付かなかった。。。
ありがとうございました。
そう、これです!
ありがとうございます!
ずっと
http://www.itscj.ipsj.or.jp/〜
と
http://kikaku.itscj.ipsj.or.jp/〜
の方ばかり探してたんですが、
https://の方にまだあったんですね、気付かなかった。。。
ありがとうございました。
2015/11/21(土) 03:23:51.12ID:YeqL1+4P
gbkの ひらがな はEUC-JPと互換性がある
ひらがなが含まれてるgbkなテキストファイルを自動判別すると
EUC-JPと認識される
ひらがなが含まれてるgbkなテキストファイルを自動判別すると
EUC-JPと認識される
2015/11/21(土) 06:36:56.04ID:GdR6w5S8
お前かお前の使ってるクソソフトが認識したことを
さも普遍的であるかのように「認識される」と書かれても
さも普遍的であるかのように「認識される」と書かれても
71デフォルトの名無しさん
2015/11/21(土) 14:00:50.43ID:EEYvP2Nj2015/11/21(土) 14:57:31.75ID:w+2inzGV
全てって…
具体名を十個挙げてみてくれ。
具体名を十個挙げてみてくれ。
2015/11/22(日) 15:40:38.08ID:CReeeeGe
仕様と実装をごちゃ混ぜにしないでほしい
2015/11/24(火) 07:50:30.03ID:CRysEeOZ
grepをutf16対応にして欲しいわ
2015/11/24(火) 12:09:48.94ID:BW2JWDBU
>>73
ANSI(SJIS) / JIS / EUC(EUC-JP) / UNICODE / UTF-8
だけしか対応してないんなら仕様だろうけど
EmEditorはgbk / big5も表示可能だが自動識別はダメ
ANSI(SJIS) / JIS / EUC(EUC-JP) / UNICODE / UTF-8
だけしか対応してないんなら仕様だろうけど
EmEditorはgbk / big5も表示可能だが自動識別はダメ
2015/11/24(火) 16:09:46.89ID:y63rqxtS
EUC系の自動判別には限界があるってだけの話じゃないのそれ
2015/11/24(火) 17:13:28.90ID:AzY4Y1Jb
馬鹿に言ってもしょうがないんだよなあ
2015/11/24(火) 21:06:35.37ID:T8a74y+F
文字コードの仕様の話と製品の仕様(実装)の話をごっちゃにしないでください
2015/11/25(水) 13:54:24.53ID:5G4DFNSQ
文字化けし辛い・自動判別に強いという意味ではISO-2022-JP最強だな
80デフォルトの名無しさん
2015/11/25(水) 21:01:53.81ID:Bzkw7eST >>74
utf-8でガマンガマン
utf-8でガマンガマン
2015/11/26(木) 10:04:26.60ID:esn3xG4v
プログラミングやマークアップで場面によって"utf8"だったり"utf-8"だったり"UTF8"だったり"UTF-8"だったりするのは何とかならんのですかね
2015/11/26(木) 18:52:12.64ID:V1IifTg+
83デフォルトの名無しさん
2015/11/26(木) 20:23:24.34ID:k6+g+Go3 >>79
https://ja.wikipedia.org/wiki/ISO-2022-JP
独自拡張しすぎだろ
utf-8最強なのだが
Win9x時代に ANSI(s-jis) + utf-8(※s-jisに無い文字をutf-8にしてる) なんてファイル作る糞ソフトがあったな
https://ja.wikipedia.org/wiki/ISO-2022-JP
独自拡張しすぎだろ
utf-8最強なのだが
Win9x時代に ANSI(s-jis) + utf-8(※s-jisに無い文字をutf-8にしてる) なんてファイル作る糞ソフトがあったな
2015/11/26(木) 22:39:18.80ID:i5VTRdPj
>>82
utf-8に関しては-が付いてておかしくなる方がおかしい。
utf-8に関しては-が付いてておかしくなる方がおかしい。
2015/11/26(木) 22:43:40.69ID:i5VTRdPj
86デフォルトの名無しさん
2015/11/26(木) 23:24:19.12ID:dmQOYIsX2015/11/26(木) 23:37:04.25ID:o1tgPu22
そんなのはプログラミングやマークアップでの指定方法の仕様次第
おかしくなると思うのはバカ
おかしくなると思うのはバカ
2015/11/26(木) 23:41:50.71ID:1gB3GczG
お前が馬鹿だ
89デフォルトの名無しさん
2015/11/27(金) 07:32:51.99ID:B8BSEsh/2015/11/27(金) 15:43:44.97ID:ssdfMMFk
91デフォルトの名無しさん
2015/11/30(月) 21:59:17.66ID:jgXroiuo 「して欲しい」じゃなく自分でやってみればいいのに。
92デフォルトの名無しさん
2015/11/30(月) 22:34:12.03ID:CwTedwfo UTF-8って日本語はほぼ3バイトだと思っていいんだっけ?
仕事仲間がそう言ってたけど不安。
仕事仲間がそう言ってたけど不安。
2015/11/30(月) 22:58:14.64ID:/7/T57pL
そういう曖昧な表現なら答えはyesでありnoでもあるだろう
2015/12/01(火) 02:33:52.32ID:juK8PVcx
iconv -f Shift_JIS -t UTF-8 file_name > new_file
サイズを比較
new_fileは、file_nameより1.5倍おおきい
# 日本人にとってUTF-8がいいわけない
サイズを比較
new_fileは、file_nameより1.5倍おおきい
# 日本人にとってUTF-8がいいわけない
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 習政権、高市首相への態度硬化 台湾有事発言で連日非難 中国 ★11 [ぐれ★]
- 日本損失1.7兆円に修正 中国渡航自粛の影響試算 [蚤の市★]
- 国内ホテル、既にキャンセルも 訪日客関連業界、事態見守る ★3 [蚤の市★]
- 「どうしようもない」 ため息つくアジアの玄関口 中国の訪日自粛で−福岡市 [蚤の市★]
- 【芸能】奇跡の53歳!元おニャン子クラブB組・山崎真由美、32年ぶりグラビア披露&8ページ袋とじ [湛然★]
- 決め手は地名「西彼杵」を読めず…とっさの判断でニセ電話詐欺だと見抜いた女性に感謝状 [蚤の市★]
- 【実況】博衣こよりのえちえち朝こよ🧪 ★2
- 【実況】博衣こよりのえちえち朝こよ🧪
- 【超悲報】中国への武力行使、世論調査で「賛成」「どちらかといえば賛成」48.8% 「反対」「どちらかといえば反対」の44.2%を上回る [314039747]
- 中国「高市が頭を下げて謝罪しない限り、絶対に許さない」 [329329848]
- 【超絶悲報】日本政府「高市さんの答弁撤回はない。政権として弱腰と映る姿勢は見せられない」これもう立憲岡田の議員辞職しかないだろ [519511584]
- お前らってよく仮想の敵作って叩いてるけどこれって実は素晴らしいことだよな
