プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11
レス数が1000を超えています。これ以上書き込みはできません。
1デフォルトの名無しさん
2018/01/22(月) 22:58:23.45ID:UK/uqEp52デフォルトの名無しさん
2018/01/22(月) 23:00:45.76ID:UK/uqEp5 ■参考サイト
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
IANA: Character Sets
http://www.iana.org/assignments/character-sets
Legacy Encoding Project
http://sourceforge.jp/projects/legacy-encoding/
CP50220
森山さんの説明
http://lists.sourceforge.jp/mailman/archives/legacy-encoding-talk-ja/2006-March/000002.html
JIS X 4061
日本語文字列照合順番
http://www.jisc.go.jp/
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
IANA: Character Sets
http://www.iana.org/assignments/character-sets
Legacy Encoding Project
http://sourceforge.jp/projects/legacy-encoding/
CP50220
森山さんの説明
http://lists.sourceforge.jp/mailman/archives/legacy-encoding-talk-ja/2006-March/000002.html
JIS X 4061
日本語文字列照合順番
http://www.jisc.go.jp/
3デフォルトの名無しさん
2018/01/22(月) 23:02:39.42ID:UK/uqEp5 ■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
内部的には Unicode -> CP932 -> CP5022x って変換な気もする
・人名をソートかけたらバストサイズ順の並びになる?
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる)
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた?
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に
機種依存文字はサポートされるか?
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件
・なぜ携帯業界はunicode化しないのか?
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
内部的には Unicode -> CP932 -> CP5022x って変換な気もする
・人名をソートかけたらバストサイズ順の並びになる?
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる)
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた?
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に
機種依存文字はサポートされるか?
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件
・なぜ携帯業界はunicode化しないのか?
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
4デフォルトの名無しさん
2018/01/22(月) 23:08:33.67ID:UK/uqEp5 ・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏+恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか)
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは?
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ
UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで)
サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い)
((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。
・Unicodeサニタイズが面倒になるのか
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏+恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか)
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは?
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ
UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで)
サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い)
((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。
・Unicodeサニタイズが面倒になるのか
5デフォルトの名無しさん
2018/01/22(月) 23:09:29.38ID:UK/uqEp5 ・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ? → ウンコマークもUnicodeに追加されるんだな。
・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定
→ ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
コントロールパネル-地域と言語のオプション-[言語]タブで
「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か?海栗コードへの挿入は難しい。そこでTRONだ!!
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る?
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10%増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。
・ところでケータイのUnicode対応度って実際どうよ? → ウンコマークもUnicodeに追加されるんだな。
・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定
→ ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
コントロールパネル-地域と言語のオプション-[言語]タブで
「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か?海栗コードへの挿入は難しい。そこでTRONだ!!
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る?
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10%増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。
6デフォルトの名無しさん
2018/01/22(月) 23:10:23.31ID:UK/uqEp5 もうひとつの過去スレ:
文字コード統一スレ 1文字目
http://pc8.2ch.net/test/read.cgi/tech/1109171258/
隔離スレ:
UnicodeとUTF-8の違いは?
http://pc12.2ch.net/test/read.cgi/tech/1177930957/
UnicodeとUTF-8の違いは? その2
http://hibari.2ch.net/test/read.cgi/tech/1274937437/
UnicodeとUTF-8の違いは? その2
http://toro.2ch.net/test/read.cgi/tech/1291075205/
UnicodeとUTF-8の違い4(インディアン隔離スレ)
http://toro.2ch.net/test/read.cgi/tech/1342963035/
文字コード統一スレ 1文字目
http://pc8.2ch.net/test/read.cgi/tech/1109171258/
隔離スレ:
UnicodeとUTF-8の違いは?
http://pc12.2ch.net/test/read.cgi/tech/1177930957/
UnicodeとUTF-8の違いは? その2
http://hibari.2ch.net/test/read.cgi/tech/1274937437/
UnicodeとUTF-8の違いは? その2
http://toro.2ch.net/test/read.cgi/tech/1291075205/
UnicodeとUTF-8の違い4(インディアン隔離スレ)
http://toro.2ch.net/test/read.cgi/tech/1342963035/
7デフォルトの名無しさん
2018/01/22(月) 23:11:09.62ID:UK/uqEp5 ■ライブラリ
IBM Globalization - ICU
http://www-306.ibm.com/software/globalization/icu/
NKF32.DLL
http://www.vector.co.jp/soft/win95/util/se020949.html
バベル
http://tricklib.com/cxx/ex/babel/
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
http://tricklib.com/cxx/ex/babel/scoremap.csv
mlang
http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx
iconv
http://www.gnu.org/software/libiconv/
ICU
http://www.icu-project.org/
IBM Globalization - ICU
http://www-306.ibm.com/software/globalization/icu/
NKF32.DLL
http://www.vector.co.jp/soft/win95/util/se020949.html
バベル
http://tricklib.com/cxx/ex/babel/
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
http://tricklib.com/cxx/ex/babel/scoremap.csv
mlang
http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx
iconv
http://www.gnu.org/software/libiconv/
ICU
http://www.icu-project.org/
8デフォルトの名無しさん
2018/01/22(月) 23:12:46.87ID:UK/uqEp5 ■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
あるいはhttp://masaka.dw.land.to/mr/jmr.phpとか。
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
あるいはhttp://masaka.dw.land.to/mr/jmr.phpとか。
9デフォルトの名無しさん
2018/01/22(月) 23:13:41.58ID:UK/uqEp5 JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
http://std.dkuug.dk/JTC1/SC2/WG2/
ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
http://appsrv.cse.cuhk.edu.hk/~irg/
http://std.dkuug.dk/JTC1/SC2/WG2/
ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
http://appsrv.cse.cuhk.edu.hk/~irg/
10デフォルトの名無しさん
2018/01/22(月) 23:15:56.35ID:UK/uqEp5 取り敢えず復活させてみた
テンプレ?多すぎサーバ重すぎ
テンプレ?多すぎサーバ重すぎ
2018/01/23(火) 00:19:04.68ID:1g8+erCR
>>1
U+4E59
U+4E59
2018/01/24(水) 16:48:24.78ID:zUaxys6b
>>1
U+30B9 U+30EC U+7ACB U+3066 U+4E59
U+30B9 U+30EC U+7ACB U+3066 U+4E59
2018/01/25(木) 15:27:10.59ID:FOhLYx3H
14デフォルトの名無しさん
2018/01/25(木) 15:31:46.52ID:zPND7U3x tar
2018/01/25(木) 23:49:25.62ID:lhHsRXtx
Irvineがそんな感じで困る
2018/01/28(日) 03:46:07.34ID:LuQm6AHf
Irvineはファイル名はスクリプトでなんとかなるけど階層フォルダは化けたままなんだよね
IrfanView 64bit はユニコード未対応
IrfanView 32bit はユニコード部分対応 (難有)
IrfanView 64bit はユニコード未対応
IrfanView 32bit はユニコード部分対応 (難有)
2018/01/30(火) 12:29:18.25ID:E5ua1x2q
IPAmj明朝最新バージョンキター
変体仮名も使えるようになってた。
変体仮名も使えるようになってた。
2018/01/30(火) 17:01:26.26ID:Y7itdObJ
(´‥∀‥`)ほう
2018/01/30(火) 17:14:44.90ID:61BNvo+J
そばですか
2018/01/30(火) 21:38:00.04ID:1SBQJDTb
IPAmjはcmapを足しただけかな
濁点半濁点つき変体仮名のグリフを追加したわけではなさげ
濁点半濁点つき変体仮名のグリフを追加したわけではなさげ
2018/01/30(火) 22:58:48.17ID:wQODml7Q
きの𛀁【甲】
ひの𛀁【丙】
つちの𛀁【戊】
かの𛀁【庚】
みづの𛀁【壬】
ひの𛀁【丙】
つちの𛀁【戊】
かの𛀁【庚】
みづの𛀁【壬】
2018/01/31(水) 12:22:08.15ID:jg2l5TuK
IPAmjのゴシック版って出ないのかな。
23デフォルトの名無しさん
2018/01/31(水) 13:35:09.89ID:W90doUhw えとって𛀁戸なのか
2018/02/01(木) 01:34:12.20ID:cOPRkGeS
そういえば変体仮名って絶対漢字のフォントバリエーションとして使われるな。
ラテン文字のところをキリル文字ギリシャ文字でちょっと異国情緒出したりするのと同じように
ラテン文字のところをキリル文字ギリシャ文字でちょっと異国情緒出したりするのと同じように
2018/02/01(木) 12:26:52.61ID:ypQwObPk
OS標準のフォントに変体仮名が入るのはまだ先の話かな。
2018/02/01(木) 21:02:21.65ID:JSLqqKka
Mac/iOSはAJ1準拠のフォントをバンドルしてるだけだから変体仮名のサポートもAJ1次第だろうな
AndroidもNoto CJKをバンドルしてるだけだからこっちもやはりフォントを作ってるAdobe次第か
Winはゴシック系フォントはUnicodeをフルカバーしようとしているようなんで可能性ありそうだけど
明朝系は1B000〜1もスルーしてるんで変体仮名も放置と予想
AndroidもNoto CJKをバンドルしてるだけだからこっちもやはりフォントを作ってるAdobe次第か
Winはゴシック系フォントはUnicodeをフルカバーしようとしているようなんで可能性ありそうだけど
明朝系は1B000〜1もスルーしてるんで変体仮名も放置と予想
2018/02/02(金) 00:29:26.12ID:iiJ5+HcF
メイリオの変体仮名が来るのか
28デフォルトの名無しさん
2018/02/02(金) 07:09:07.07 変態さんかな?
2018/02/02(金) 12:26:25.48ID:QpaXEFbV
変体仮名がOS標準のフォントに入ったら
ハンドルネームとかAAに使われるかな
ハンドルネームとかAAに使われるかな
2018/02/02(金) 13:12:45.95ID:XWVaw1+J
よく有料フォントに正規版とお試し版があるけど
この2つのフォントファイルってシステム的に共存できるの?
それとも後から入れたほうに上書きされちゃう?
この2つのフォントファイルってシステム的に共存できるの?
それとも後から入れたほうに上書きされちゃう?
2018/02/03(土) 01:07:32.21ID:PZ3vBGzx
Windowsの場合フォントの内部名が違えば共存
同じなら上書き
同じなら上書き
2018/02/03(土) 04:35:56.44ID:oZ9l3iOK
33デフォルトの名無しさん
2018/02/03(土) 04:52:04.58ID:pNC8Ba1v 名前変えてインスコするだけ
2018/02/03(土) 23:36:52.87ID:7YWK+QWP
上書きできたっけ?
先に入ってる方を消せって言われた気がする
先に入ってる方を消せって言われた気がする
2018/02/04(日) 14:42:43.04ID:ggk79Dnh
上書きしますかか更新しますかって聞かれる気がする
36デフォルトの名無しさん
2018/02/04(日) 16:58:59.50ID:AtwA7TkY2018/02/04(日) 17:57:43.36ID:F/J6Xayo
馬耳東風って本当に存在する現象なんだな
2018/02/04(日) 18:01:22.90ID:AtwA7TkY
それを言うなら馬のシカに念仏
2018/02/08(木) 08:34:15.23ID:9/5RomB7
Unicode Emoji 11.0 characters now final for 2018
http://blog.unicode.org/2018/02/unicode-emoji-110-characters-now-final.html
First look: All 150+ Emojis for 2018
https://www.youtube.com/watch?v=5qLDBQ583Y8
http://blog.unicode.org/2018/02/unicode-emoji-110-characters-now-final.html
First look: All 150+ Emojis for 2018
https://www.youtube.com/watch?v=5qLDBQ583Y8
2018/02/08(木) 13:08:04.59ID:dB9qfKFM
思いついた絵文字を定期的に追加する文字コードになってしまったな
2018/02/08(木) 16:58:39.51ID:146Y2n+h
2018/02/09(金) 18:02:52.35ID:AUjtCL3B
そのコードポイントは昔、□デを入れる事が提案されたが
○ンとか他の重要な文字の為にとっておくべきとかでSMPに追いやられたなんて事があったな。
元号組文字が重要な文字だと認められればそこになるだろうけど。
○ンとか他の重要な文字の為にとっておくべきとかでSMPに追いやられたなんて事があったな。
元号組文字が重要な文字だと認められればそこになるだろうけど。
2018/02/09(金) 18:32:17.19ID:iqzIZ4Vv
元号エリア用意して連番にするとして
何文字用意すれば良い?
何文字用意すれば良い?
44デフォルトの名無しさん
2018/02/09(金) 19:31:27.80 >>43
とりあえず127個もあれば人類滅亡まで持つと思う
とりあえず127個もあれば人類滅亡まで持つと思う
2018/02/09(金) 20:00:03.04ID:0E/oZJHb
既に250弱あるのに何言ってんだ
2018/02/09(金) 20:02:34.92ID:chnfArN4
U+32FF ??
U+337B 平成
U+337C 昭和
U+337D 大正
U+337E 明治
ここに入れるとコードポイント逆順でソートできるという利点が
U+337B 平成
U+337C 昭和
U+337D 大正
U+337E 明治
ここに入れるとコードポイント逆順でソートできるという利点が
47デフォルトの名無しさん
2018/02/09(金) 20:33:41.59ID:tdu0vLnD 合成文字定義するんじゃないのか
2018/02/09(金) 22:26:47.14ID:/PLWE3G9
あくまでもあれらは他の規格との互換用で通常は使用する事が推奨されていないのだがな。
たとえば平成はU+337B(~)を使うのではなくU+5E73(平)とU+6210(成)を並べる事が推奨されている。
最近では昭和時代〜平成初期とは違ってワープロソフト等で任意の組み文字を表示、印刷するのが容易になったし、
使用出来る容量も多くなって1文字分のバイト数でも減らしたいなんて事は少なくなったし次の元号の組み文字は入るだろうか?
JIS X0213とかに入ればUnicodeにも追加せざるを得なくなるだろうが。
たとえば平成はU+337B(~)を使うのではなくU+5E73(平)とU+6210(成)を並べる事が推奨されている。
最近では昭和時代〜平成初期とは違ってワープロソフト等で任意の組み文字を表示、印刷するのが容易になったし、
使用出来る容量も多くなって1文字分のバイト数でも減らしたいなんて事は少なくなったし次の元号の組み文字は入るだろうか?
JIS X0213とかに入ればUnicodeにも追加せざるを得なくなるだろうが。
2018/02/09(金) 23:58:38.13ID:lYXDEjIZ
そういえば康熙部首とIDCに挟まれたU+2FE0〜U+2FEFって空いてたよな。
どうしてもBMPがいいならそこを元号専用ブロックにするのはダメなのかな?
名称はJapanese Era NameとかGengoとかで。
16個あればよほどの事が無い限り今生きてる世代が生きてる間は大丈夫だろう。
どうしてもBMPがいいならそこを元号専用ブロックにするのはダメなのかな?
名称はJapanese Era NameとかGengoとかで。
16個あればよほどの事が無い限り今生きてる世代が生きてる間は大丈夫だろう。
2018/02/10(土) 01:04:36.42ID:3N07jfB9
絵文字の一種としてなら完全に新しい組文字でもすんなり入れられそうな雰囲気ある
51デフォルトの名無しさん
2018/02/10(土) 05:35:14.43ID:1vRRPdai >>49
次の代で終わる鴨試練
次の代で終わる鴨試練
2018/02/10(土) 14:28:40.69ID:55j4PhG1
BMPの必要性ないわな
2018/02/10(土) 23:46:14.13ID:V4kIiAX3
そもそも元号に限らず組文字のコードはあまり使われないよな。
昔から機種依存文字(環境依存文字)だから使うな言われてきたのもあるけど。
でも明治、大正、昭和、平成の組文字合紫順~はあるのに、
○○(新元号)が無いのはおかしい。UnicodeではBMPでないといかん。なんてゴネる人が出てくるのかな。
昔から機種依存文字(環境依存文字)だから使うな言われてきたのもあるけど。
でも明治、大正、昭和、平成の組文字合紫順~はあるのに、
○○(新元号)が無いのはおかしい。UnicodeではBMPでないといかん。なんてゴネる人が出てくるのかな。
2018/02/11(日) 01:09:40.03ID:WMQeXuiD
そういうひとは明治以前の元号をスルーしてる
55デフォルトの名無しさん
2018/02/11(日) 01:37:38.13ID:pE9MWmVE チョン国人:慰安婦文字はまだですか?
2018/02/11(日) 02:58:01.54ID:+g/aG4zA
DNAの二重らせんがついに絵文字に…!→イラストの深刻なミスが発見される - Togetter
https://togetter.com/li/1197708
https://togetter.com/li/1197708
2018/02/11(日) 06:42:49.06ID:I57TUl59
>>53
Unicodeの日本部隊はルール無視してでもねじ込みたがりだからな
今後も考えた上で場所を決めてほしい
過去のがないのは元々がJIS定義の字を収録してるだけだから
JISがこれからどうするかに歩調を合わせるべきだと思うけどね
Unicodeの日本部隊はルール無視してでもねじ込みたがりだからな
今後も考えた上で場所を決めてほしい
過去のがないのは元々がJIS定義の字を収録してるだけだから
JISがこれからどうするかに歩調を合わせるべきだと思うけどね
2018/02/11(日) 13:29:49.03ID:aLeqVhz7
>>56
そもそもなんでこんなもの入れたんだ
そもそもなんでこんなもの入れたんだ
2018/02/11(日) 23:57:18.38ID:RlzDfzqO
CJK統合漢字拡張GはSIPに入り切らなくなったからTIP(第3面)になるんだな。
古代漢字等がU+30000〜に提案されてたが、それらはずれる事になるようだ。
で一昨年末に正式名称が決定したあのニホニウムを含む4元素の中国語名の漢字のうち
現時点でUnicode未収録なのは拡張GでなくURO末端部に追加する方針らしい。
古代漢字等がU+30000〜に提案されてたが、それらはずれる事になるようだ。
で一昨年末に正式名称が決定したあのニホニウムを含む4元素の中国語名の漢字のうち
現時点でUnicode未収録なのは拡張GでなくURO末端部に追加する方針らしい。
2018/02/14(水) 16:24:24.38ID:1T5FcoPk
>>58
http://www.unicode.org/L2/L2017/17113-science-emoji.pdf
科学ファンサイト“I Fucking Love Science”のFacebookにはフォロワーが2500万人いるだの
3月のFacebookの科学グループには84万人のメンバーが活動してるだの書かれてるから
結局「Facebookで使ってみたかった」なのでは。
http://www.unicode.org/L2/L2017/17113-science-emoji.pdf
科学ファンサイト“I Fucking Love Science”のFacebookにはフォロワーが2500万人いるだの
3月のFacebookの科学グループには84万人のメンバーが活動してるだの書かれてるから
結局「Facebookで使ってみたかった」なのでは。
2018/02/15(木) 04:48:41.13ID:ra7E/PHQ
test
2018/02/15(木) 04:52:15.83ID:ra7E/PHQ
test
2018/02/15(木) 06:09:58.19ID:ZpZxpx4v
test2
2018/02/15(木) 06:10:24.31ID:ZpZxpx4v
test2
2018/02/15(木) 06:10:28.38ID:ZpZxpx4v
test2
2018/02/15(木) 06:14:40.45ID:lreHQ0M8
hage
2018/02/15(木) 06:27:48.90ID:y383ZoHX
テストてすと漢字
68デフォルトの名無しさん
2018/02/18(日) 09:20:31.63 合字なんて百害あって一利なしと判明
2018/02/19(月) 14:39:31.27ID:tWGaYfLB
macOS 10.13.3/iOS 11.2.5でアプリが特定のテルグ語でクラッシュするバグはゼロ幅非接合子の処理の不具合によるもので、iOS 10にも影響。
ttps://applech2.com/archives/20180216-macos-and-ios-telugu-crash.html
ttps://applech2.com/archives/20180216-macos-and-ios-telugu-crash.html
70デフォルトの名無しさん
2018/02/20(火) 00:53:22.06 たかが文字のために複雑な処理を強いるからこういうことになる
合字なんてやめてビットマップで用意すりゃいいだろ
今の時代、そのくらいのリソースの余裕はあるだろう
合字なんてやめてビットマップで用意すりゃいいだろ
今の時代、そのくらいのリソースの余裕はあるだろう
2018/02/20(火) 21:44:08.47ID:4B02mjKW
いやアニメーションGIFの方がいい
2018/02/20(火) 23:42:25.88ID:J/S+v6zO
base64エンコードしとけ
2018/02/21(水) 16:48:25.28ID:1FmFnhWu
単純な絵文字ならLINEスタンプの如く画像でもいいけど
そのテルグ語というのは文字を画像にしたところでどれほど処理が簡便になるのやら
そのテルグ語というのは文字を画像にしたところでどれほど処理が簡便になるのやら
2018/02/26(月) 14:48:48.25ID:GQG1rcv8
L2/18-063
Proposal to remove the UCS2003 representative glyphs from the Extension B code charts
Ken Lunde
2018-02-22
http://www.unicode.org/L2/L2018/18063-remove-ucs2003-ext-b.pdf
Proposal to remove the UCS2003 representative glyphs from the Extension B code charts
Ken Lunde
2018-02-22
http://www.unicode.org/L2/L2018/18063-remove-ucs2003-ext-b.pdf
2018/02/28(水) 08:11:48.96ID:V/xY/GLw
2018/02/28(水) 10:19:54.78ID:qCi3B9pX
UTF-16があれば十分だと思ったこともありました
2018/02/28(水) 11:10:39.29ID:8h6/NeTB
2018/02/28(水) 15:09:53.47ID:vLCxLqSt
UTF-8だけで結構。
2018/02/28(水) 16:24:29.00ID:Ow51LBi3
UTF-8でもUTF-16でもUTF-32でも表せる文字数は同じはずだが
UTF-16の限界に合わせてUTF-8とUTF-32を途中から制限したというべきか。
UTF-16の限界に合わせてUTF-8とUTF-32を途中から制限したというべきか。
80デフォルトの名無しさん
2018/02/28(水) 17:38:48.54ID:F8/eMdWm81デフォルトの名無しさん
2018/02/28(水) 21:23:27.952018/02/28(水) 21:38:05.83ID:8h6/NeTB
2018/02/28(水) 21:51:42.35ID:EoZt1sU9
わざわざID消してくれてる荒らしに構うな
2018/03/01(木) 10:30:25.87ID:K+j/zXtz
2018/03/01(木) 19:03:52.79ID:5P8YUW6k
詰んでるのはメモ帳の方で
うんコード自体はまだ希望ある
うんコード自体はまだ希望ある
2018/03/01(木) 21:13:43.25ID:ni3ppFQA
ゆうてBOMついてて困るってどれぐらいある?
87デフォルトの名無しさん
2018/03/02(金) 05:14:51.39ID:29NVX3N7 >>76>>77
語りたくてしょうがない具合がキモいな
語りたくてしょうがない具合がキモいな
2018/03/02(金) 08:24:39.34ID:qP0hZxcg
wchar_t楽チンでいいんだけどなあ
UTF8なんてアメリカ人はASCIIと区別してないだろ
UTF8なんてアメリカ人はASCIIと区別してないだろ
2018/03/02(金) 13:34:30.39ID:NpAiIv/C
>>88
+1
+1
2018/03/03(土) 21:08:37.51ID:4FkhobJB
ビルマ文字の文字コードを何とかしてくれ
2018/03/09(金) 21:41:02.61ID:F3m2Keu8
教育漢字(小学校で習う漢字)しか入ってないお試しフォントを時々見かけるけど
http://forest.watch.impress.co.jp/article/2002/07/24/motoyafont.html
こういうフォントはインスコしたらそこそこ役に立つんだろうか?
人名は色々引っかかるから名簿には使えないだろうけど
http://forest.watch.impress.co.jp/article/2002/07/24/motoyafont.html
こういうフォントはインスコしたらそこそこ役に立つんだろうか?
人名は色々引っかかるから名簿には使えないだろうけど
92デフォルトの名無しさん
2018/03/10(土) 10:32:38.62ID:TTti/WSS 官公庁でも使えないのか
93デフォルトの名無しさん
2018/03/10(土) 10:33:43.40ID:TTti/WSS ああ要するに撒き餌記事だな
誘導されたら負け
誘導されたら負け
2018/03/10(土) 22:09:21.47ID:w6ueh4CJ
いつの記事やねん
2018/03/10(土) 22:32:59.43ID:XvEndXTa
教育漢字フォントはわりと色んなメーカーから出てるが
>>92-94の反応を見ると知らない奴は知らない模様
>>92-94の反応を見ると知らない奴は知らない模様
2018/03/10(土) 22:47:02.21ID:Y9zk6QBB
吉野家が打てないからな>教育漢字
2018/03/17(土) 13:54:50.47ID:Frqgdg64
2018/03/17(土) 14:07:56.36ID:yHhMlxWi
いつの記事やねん
2018/03/17(土) 14:54:51.30ID:Frqgdg64
申し訳ない。
100デフォルトの名無しさん
2018/03/17(土) 15:29:10.27ID:9Eobsiem IPAなんてまぎらわしい名前付けやがって大迷惑だわ
101デフォルトの名無しさん
2018/03/17(土) 16:42:18.12ID:cWw1OMJa ほんそれ
102デフォルトの名無しさん
2018/03/17(土) 21:17:50.06ID:9viTJtIg 国際音声記号もIPAだったな。
103デフォルトの名無しさん
2018/03/18(日) 00:41:28.92ID:Gc198fCD 今からでも略称変えてほしいわ
19世紀からある団体と被せやがって
19世紀からある団体と被せやがって
104デフォルトの名無しさん
2018/03/18(日) 03:54:48.28ID:HsPk0IuW KCL
105デフォルトの名無しさん
2018/03/18(日) 04:20:31.18ID:Yx3zl5Jc 情報処理推進機構だから JSK にすればいいのに
なんか文字面ええやん
なんか文字面ええやん
106デフォルトの名無しさん
2018/03/19(月) 09:00:05.53ID:mojZe7gW107デフォルトの名無しさん
2018/03/21(水) 10:48:26.27ID:4NRc1cWQ 先日日本語キーボードに変えたら\でエスケープ出来なくて焦った
そして今まで知らぬうちにUnicodeでコード書いてたのに気付いた
もうバックスラッシュ=\の時代で無いんだな…
そして今まで知らぬうちにUnicodeでコード書いてたのに気付いた
もうバックスラッシュ=\の時代で無いんだな…
108デフォルトの名無しさん
2018/03/21(水) 10:50:01.21ID:4NRc1cWQ ちなみにMACだけどバックスラッシュはオプション+\で出せる
こんなアホ他に居るか分からんので役に立つか分からんが…
こんなアホ他に居るか分からんので役に立つか分からんが…
109デフォルトの名無しさん
2018/03/21(水) 11:33:06.21ID:9aBHV4ji 何言ってんだこいつ
110デフォルトの名無しさん
2018/03/21(水) 11:37:08.42ID:0twXSax5 具体的に反論できないならレスすんなよ
111デフォルトの名無しさん
2018/03/22(木) 04:56:13.36ID:uJd//Z6A112デフォルトの名無しさん
2018/03/22(木) 06:22:34.04113デフォルトの名無しさん
2018/03/22(木) 06:57:15.78ID:C5Ula1AM ブラウザの設定依存の可能性ががががが
114デフォルトの名無しさん
2018/03/22(木) 09:43:21.18ID:Q2/ylW7b 5Chわろた
115デフォルトの名無しさん
2018/03/22(木) 10:27:40.75ID:mcQm+qkM >>111
試してみたら専ブラからでもFirefoxからでも
円記号を書き込むとバックスラッシュに変えられてしまう
http://mevius.2ch.net/test/read.cgi/tech/1402617355/254-255
>>107のもそういうことなんだろうと思う
>>112が円記号を書き込めているのは謎だけど
> \と\の区別が付いてたまるか
これもバックスラッシュに変わるはず
試してみたら専ブラからでもFirefoxからでも
円記号を書き込むとバックスラッシュに変えられてしまう
http://mevius.2ch.net/test/read.cgi/tech/1402617355/254-255
>>107のもそういうことなんだろうと思う
>>112が円記号を書き込めているのは謎だけど
> \と\の区別が付いてたまるか
これもバックスラッシュに変わるはず
116デフォルトの名無しさん
2018/03/22(木) 11:18:54.50ID:ZqQjjjtT ここは5chだから\と¥は書き分けられる
117デフォルトの名無しさん
2018/03/22(木) 12:06:59.42118デフォルトの名無しさん
2018/03/22(木) 12:21:22.23ID:o6o53GFc まぎらわしいから5ちゃんじゃなくて005cHか0x5Cって書いてくれ
119デフォルトの名無しさん
2018/03/22(木) 15:53:15.85ID:UF/XC/99 0x5c に限らず、ASCII 文字列は国によってフォント上さまざまに実装されてきた
Unicode の時代には、そんなフォントは存在してはいけないし、使用してもいけない
Unicode の時代には、そんなフォントは存在してはいけないし、使用してもいけない
120デフォルトの名無しさん
2018/03/23(金) 00:09:04.87ID:VqVxJ9uP 何原理主義だろう
121デフォルトの名無しさん
2018/03/23(金) 16:08:24.29ID:aSD4raKW ASCIIもISO/IEC 646もJIS X 0201も
よもや半世紀50年(以上)も使い続けることになるとは思うまいて
よもや半世紀50年(以上)も使い続けることになるとは思うまいて
122デフォルトの名無しさん
2018/03/23(金) 17:18:23.98ID:0DDzAR5J 22世紀でも使われてるよ
123デフォルトの名無しさん
2018/03/23(金) 20:13:42.24ID:cDUKcJ53 ISO-2022シリーズはとっとと滅びてほしいんですが
124デフォルトの名無しさん
2018/03/23(金) 23:59:10.11ID:2n1onn8y 21世紀の現在でもメモ帳のデフォはANSI (CP932) だし
うにコードはおとなしく寿司ネタにでもなってるがいいにょ
https://b2v8w6eq1p1erh.cdn.jp.idcfcloud.com/menu/img/999660362_PCL.jpg
【参考】 寿司の絵文字はOSによって表示が異なる
https://iwb.jp/unicode-sushi-mac-windows/
【参考】 あなたのデバイスで寿司の絵文字がどのように表示されるか確認
https://iwb.jp/s/unicode-sushi-mac-windows/
うにコードはおとなしく寿司ネタにでもなってるがいいにょ
https://b2v8w6eq1p1erh.cdn.jp.idcfcloud.com/menu/img/999660362_PCL.jpg
【参考】 寿司の絵文字はOSによって表示が異なる
https://iwb.jp/unicode-sushi-mac-windows/
【参考】 あなたのデバイスで寿司の絵文字がどのように表示されるか確認
https://iwb.jp/s/unicode-sushi-mac-windows/
125デフォルトの名無しさん
2018/03/24(土) 08:40:08.55ID:XLuW03jy また新しいemojiが提案されたぞ
Apple Proposes New Accessibility Emojis
https://blog.emojipedia.org/apple-proposes-new-accessibility-emojis/
Apple Proposes New Accessibility Emojis
https://blog.emojipedia.org/apple-proposes-new-accessibility-emojis/
126デフォルトの名無しさん
2018/03/24(土) 11:29:39.85ID:5hh+Vua5 モンスター利用者の匂いがプンプン😡😠する
127デフォルトの名無しさん
2018/03/24(土) 13:16:29.93ID:OxOc4HMA 寿司、卵焼きだったわ
128デフォルトの名無しさん
2018/03/24(土) 19:36:01.34ID:48/rgK9T129デフォルトの名無しさん
2018/03/24(土) 21:33:57.21ID:sOpHkhnz130デフォルトの名無しさん
2018/03/24(土) 21:52:09.74ID:48/rgK9T >>129
ああ全角の\ならガラケーで打てたな
US仕様では当然半角\キーで素直に半角\が出て表示される、但しASCII環境ならASCIIで、ユニコならユニコで
長く日本仕様を離れていたので、昔の半角\=半角¥という読み替えの古い常識で考えてしまい、
エスケープ用に半角\の代用として半角¥記号を用いてしまった
しかし今やIDEもユニコで保存される時代(少なくともうちのは)、半角¥と半角\はもはや違う文字なので別に扱われてしまった、と
ほんのつぶやき気分で書き込んだのになんか紛糾させてしまってて申し訳ない…
ああ全角の\ならガラケーで打てたな
US仕様では当然半角\キーで素直に半角\が出て表示される、但しASCII環境ならASCIIで、ユニコならユニコで
長く日本仕様を離れていたので、昔の半角\=半角¥という読み替えの古い常識で考えてしまい、
エスケープ用に半角\の代用として半角¥記号を用いてしまった
しかし今やIDEもユニコで保存される時代(少なくともうちのは)、半角¥と半角\はもはや違う文字なので別に扱われてしまった、と
ほんのつぶやき気分で書き込んだのになんか紛糾させてしまってて申し訳ない…
131デフォルトの名無しさん
2018/03/24(土) 22:10:16.18 結局、業務でプログラミングするためのデスクトップ環境はWindows一択ってこと
132デフォルトの名無しさん
2018/03/24(土) 23:58:50.00ID:N+9D7Vpq 日本語版ではキーボードの \ 打っても \ 打っても出るのは円記号だし
フォントも U+005C は全部円記号に直してあるから徹底してはいるよな……>Windows
フォントも U+005C は全部円記号に直してあるから徹底してはいるよな……>Windows
133デフォルトの名無しさん
2018/03/25(日) 01:12:37.34ID:Xbb+EzoJ このスレのMac使いは何%くらい?
134デフォルトの名無しさん
2018/03/25(日) 08:12:07.62 >>133
業務はWindows一択
個人でのプログラミング・ゲーム・動画編集はWindows
個人でのインターネット閲覧はMac
Macだと住所入力とかでシステムが求める全角ハイフンが入力できなくて困ることもあるけどそういうときはコピペで何とかしてる
業務はWindows一択
個人でのプログラミング・ゲーム・動画編集はWindows
個人でのインターネット閲覧はMac
Macだと住所入力とかでシステムが求める全角ハイフンが入力できなくて困ることもあるけどそういうときはコピペで何とかしてる
135デフォルトの名無しさん
2018/03/25(日) 08:37:33.87ID:U5SlEUJl ウェブ屋さんはMac率200%くらいじゃないだろかね。
136デフォルトの名無しさん
2018/03/25(日) 08:59:39.70ID:iml51cux 昔はWebObjects使うからMac、なんてのも聞いたけど、今はなんでMac選ぶんだろうね。
137デフォルトの名無しさん
2018/03/25(日) 09:15:36.40ID:2683qfFE 全員にMACBOOK一括支給されてるけど供給が大手で滞らないし管理しやすいからだろう
新品の充電器と本体のストックあり
新品の充電器と本体のストックあり
138デフォルトの名無しさん
2018/03/25(日) 09:16:54.83ID:2683qfFE 家ではもちろんWindows
139デフォルトの名無しさん
2018/04/02(月) 20:37:29.23ID:x4wG72eH 新元号への対応についてのアップデート
https://blogs.technet.microsoft.com/jperablog/2018/04/02/新元号への対応についてのアップデート/ 👀
Rock54: Caution(BBR-MD5:0be15ced7fbdb9fdb4d0ce1929c1b82f)
https://blogs.technet.microsoft.com/jperablog/2018/04/02/新元号への対応についてのアップデート/ 👀
Rock54: Caution(BBR-MD5:0be15ced7fbdb9fdb4d0ce1929c1b82f)
140デフォルトの名無しさん
2018/04/03(火) 19:33:36.58ID:oHE3S4VB せっかく準備期間を十分確保できる改元なのに新元号の公表を
極力遅らせようとするなんてどうかしてる
極力遅らせようとするなんてどうかしてる
141デフォルトの名無しさん
2018/04/04(水) 02:30:00.47ID:h2UR4/YM 新元号があらかじめわかる方が可笑しい
142デフォルトの名無しさん
2018/04/04(水) 09:22:34.11ID:XmvaXIwt143デフォルトの名無しさん
2018/04/04(水) 15:14:07.82ID:Pmay6Vdj 昭和のときは平成の文字コードあらかじめ空けてあったんだよな
UNICODEではその辺のセンスないのか
UNICODEではその辺のセンスないのか
144デフォルトの名無しさん
2018/04/04(水) 17:37:38.50 >>143
ん?200個くらい空けてあるって確かこのスレで教えてもらったけど?
ん?200個くらい空けてあるって確かこのスレで教えてもらったけど?
145デフォルトの名無しさん
2018/04/04(水) 17:39:15.43 >>43-48だった
250個も空きがあるんなら問題ないっしょ
250個も空きがあるんなら問題ないっしょ
146デフォルトの名無しさん
2018/04/04(水) 18:07:49.51ID:rXkfBXRy 空きが250あるかどうか知らないが日本の元号は既にそのくらいあるな
147デフォルトの名無しさん
2018/04/06(金) 19:44:03.07ID:eeERSjFP 空けてあったんじゃなくて当時のJISコードがスカスカだっただけ
今回だって別にBMPにこだわらなければ場所はいくらでもある
今回だって別にBMPにこだわらなければ場所はいくらでもある
148デフォルトの名無しさん
2018/04/06(金) 20:30:23.32ID:9uxpFeFd >>146
どうせ良くも悪くも元号合字があるなら、せっかくだから過去のも入れてほしいなあ。南北朝のをどういう順番にするのがいいのかわからないけど。
どうせ良くも悪くも元号合字があるなら、せっかくだから過去のも入れてほしいなあ。南北朝のをどういう順番にするのがいいのかわからないけど。
149デフォルトの名無しさん
2018/04/07(土) 12:03:23.81ID:BRhgC8GS150デフォルトの名無しさん
2018/04/07(土) 12:40:24.25ID:uudWMLk6 文字以外のものを平気で文字コードに入れようとするような奴がいるからUNICODEが糞になったんだろうな
151デフォルトの名無しさん
2018/04/07(土) 21:58:57.93 それな🙋絵文字を増やす動きは馬鹿すぎだわ🤔
絵文字なんざ煽るときとかおちょくるときにしか使わないんだから🤣
絵文字なんざ煽るときとかおちょくるときにしか使わないんだから🤣
152デフォルトの名無しさん
2018/04/08(日) 08:28:28.54ID:rpv5P472 そんなこと言ってないで🍣喰え😋
とかやるわけだ
とかやるわけだ
153デフォルトの名無しさん
2018/04/08(日) 12:11:16.44ID:YK+KPtHu 歴代天皇の顔を全部顔文字にするべき
154デフォルトの名無しさん
2018/04/08(日) 12:38:11.74 そんなん差別だろ😡全人類の顔を入れろや😤
155デフォルトの名無しさん
2018/04/08(日) 13:46:13.79ID:2ig97iWV >>153
どの天皇よりも聖徳太子のほうが使える気がする
どの天皇よりも聖徳太子のほうが使える気がする
156デフォルトの名無しさん
2018/04/08(日) 14:22:35.48ID:xmyFoIZI そういえば、たまにみかけるヨコハマタイヤのマークみたいな顔の活字ってUNICODEには入ってないのかな。
157デフォルトの名無しさん
2018/04/08(日) 15:13:40.81ID:nkM5b3tX 国旗が顔文字になる時代
158デフォルトの名無しさん
2018/04/08(日) 18:16:37.26ID:nFQIU7l5 >>156
「写植記号BA-90」のことなら、一応ユニコード上では「U+1F31D FULL MOON WITH FACE」に相当するっぽいけど、そのままのデザインで収録しているフォントは無さげ
「GL-アンチックPlus」というフォントには私用領域のU+E012に収録されてるみたい
違う文字の話だったらゴメンね
「写植記号BA-90」のことなら、一応ユニコード上では「U+1F31D FULL MOON WITH FACE」に相当するっぽいけど、そのままのデザインで収録しているフォントは無さげ
「GL-アンチックPlus」というフォントには私用領域のU+E012に収録されてるみたい
違う文字の話だったらゴメンね
159デフォルトの名無しさん
2018/04/08(日) 18:21:46.58ID:ikNNlzZg >>157
顔文字?絵文字だろ
顔文字?絵文字だろ
160デフォルトの名無しさん
2018/04/08(日) 18:52:03.01ID:xmyFoIZI161デフォルトの名無しさん
2018/04/08(日) 23:57:50.48ID:JmR0EgV6 質問させてください。
http://www.birdland.co.jp/wordpress/?p=377
↑このWebページに,
「今ではよく意味が通じないですが半角漢字というサイズが1の、ひらがななんてのもありました。」
とあるのですが,“半角漢字”や“1バイトひらかな”などでWeb検索してもそれらしきものが見つかりません。
ご存知のかた,どうか半角漢字≠ノついて教えていただけないでしょうか……。
http://www.birdland.co.jp/wordpress/?p=377
↑このWebページに,
「今ではよく意味が通じないですが半角漢字というサイズが1の、ひらがななんてのもありました。」
とあるのですが,“半角漢字”や“1バイトひらかな”などでWeb検索してもそれらしきものが見つかりません。
ご存知のかた,どうか半角漢字≠ノついて教えていただけないでしょうか……。
162デフォルトの名無しさん
2018/04/09(月) 01:39:30.08ID:8NSSH6sZ163デフォルトの名無しさん
2018/04/09(月) 14:30:25.25ID:jnBi1DXA 兀ってなんや?
164デフォルトの名無しさん
2018/04/09(月) 14:41:43.67ID:PipQdxBZ πじゃないか?
165デフォルトの名無しさん
2018/04/09(月) 14:45:34.68ID:dmgfmkci 日立のベーシックマスターもひらがな表示できたよね。
>>161
もしかして、EUC-JP の半角カタカナのことを言ってるのかな? と思いながら元記事を見たけどよく分からん。
少なくとも「サイズが1」というのは「文字幅が1 (いわゆる半角文字)」と言いたいのだと感じた。
>>161
もしかして、EUC-JP の半角カタカナのことを言ってるのかな? と思いながら元記事を見たけどよく分からん。
少なくとも「サイズが1」というのは「文字幅が1 (いわゆる半角文字)」と言いたいのだと感じた。
166デフォルトの名無しさん
2018/04/09(月) 15:10:27.34ID:I4uUee7c https://ja.wikipedia.org/wiki/%E3%83%99%E3%83%BC%E3%82%B7%E3%83%83%E3%82%AF%E3%83%9E%E3%82%B9%E3%82%BF%E3%83%BC
>ベーシックマスターレベル3
>標準でひらがなの表示が可能。
>ひらがなモードでは8×16ドットによってキャラクターを表現する関係から
>インタレーススキャンを利用するため、ちらつきを防止するために
>専用ディスプレイは長残光仕様であった。
後継機のS1を持っていた
S1でも同様にひらがな表示は出来たが、持っていたディスプレイが
長残光仕様じゃなかったので、ちらつきがひどくてひらがなは使えなかった
>ベーシックマスターレベル3
>標準でひらがなの表示が可能。
>ひらがなモードでは8×16ドットによってキャラクターを表現する関係から
>インタレーススキャンを利用するため、ちらつきを防止するために
>専用ディスプレイは長残光仕様であった。
後継機のS1を持っていた
S1でも同様にひらがな表示は出来たが、持っていたディスプレイが
長残光仕様じゃなかったので、ちらつきがひどくてひらがなは使えなかった
167デフォルトの名無しさん
2018/04/09(月) 15:28:37.48ID:jnBi1DXA あーπだったか
πにしてもこの限られたなかに入ってるのはちょっとふしぎだ
πにしてもこの限られたなかに入ってるのはちょっとふしぎだ
168デフォルトの名無しさん
2018/04/09(月) 16:14:45.29ID:I4uUee7c169デフォルトの名無しさん
2018/04/09(月) 16:34:52.32ID:pWi/1Ey6 98でもVMやUVの前期型にゃ無いぜ
170デフォルトの名無しさん
2018/04/09(月) 16:54:46.77ID:zc1O7Ylo >>163
"こつ"じゃないのそれ
"こつ"じゃないのそれ
171161
2018/04/10(火) 04:41:14.65ID:UW6YFgPq みなさんありがとうございました。
恐らくMSXの日本語文字のことのようですね。
確かにJISの「半角カタカナ」(というと某氏に粘着されそうですが^^;)は良く聞くのですが
ひらかなやまして漢字が1バイトで表現されていた時代もあったとは知りませんでした。
勉強になりました。
恐らくMSXの日本語文字のことのようですね。
確かにJISの「半角カタカナ」(というと某氏に粘着されそうですが^^;)は良く聞くのですが
ひらかなやまして漢字が1バイトで表現されていた時代もあったとは知りませんでした。
勉強になりました。
172デフォルトの名無しさん
2018/04/10(火) 08:23:49.31ID:RtdAOiVx ブログなんだから直接聞けよksg
173デフォルトの名無しさん
2018/04/11(水) 00:04:25.91ID:ENYgqsM2 兀突骨(ごつとつこつ)
174デフォルトの名無しさん
2018/04/11(水) 02:15:14.13ID:YTgAqaXH >>172
どうせ過疎スレなんだから答えてやれよハゲ
どうせ過疎スレなんだから答えてやれよハゲ
175デフォルトの名無しさん
2018/04/11(水) 02:52:22.38ID:n/11ITTj 俺ははげてない
176デフォルトの名無しさん
2018/04/11(水) 08:02:05.13 俺はハゲてる(´・ω・`)
177デフォルトの名無しさん
2018/04/11(水) 11:22:21.45ID:/0jCMe99 禿=大+π=大きいパイ
禿は巨乳
禿は巨乳
178デフォルトの名無しさん
2018/04/11(水) 18:45:36.90ID:/dmo8H9H あの時代はVRAMに直接アクセスしてフォント書き換えるのが可能だったから漢字作るのも可能だったよね
まぁデフォルトて漢字用意してたのはMSXくらいしか知らないけど
普段使わないasciiコード255に「笑」を割り当てていたのを思い出してちょっと恥ずかしくなってみたり
まぁデフォルトて漢字用意してたのはMSXくらいしか知らないけど
普段使わないasciiコード255に「笑」を割り当てていたのを思い出してちょっと恥ずかしくなってみたり
179デフォルトの名無しさん
2018/04/11(水) 19:23:42.70ID:7GMVgRs0180デフォルトの名無しさん
2018/04/11(水) 19:39:19.41ID:CjJoJUeK181デフォルトの名無しさん
2018/04/11(水) 20:05:21.67ID:ZpIvtemd182デフォルトの名無しさん
2018/04/12(木) 01:10:36.70ID:d8+40H+h183デフォルトの名無しさん
2018/04/12(木) 09:42:00.51ID:vE9telBE >>179
セミグラフィックの文字,今じゃほとんどUnicodeに収録されてるなぁ(もちろんUnicodeがPC-6000を念頭に置いてる訳ではないけども)
と思って眺めてたら,Unicodeに無さそうな文字が。
1/8-7,8,9の総和記号を三分割した文字は多分未来永劫Unicodeには収録されないだろうから,
完全にPC-6000独自の文字として歴史に残るねw そこまで大袈裟に言う必要があるかどうかは不問にするとしてさ。
セミグラフィックの文字,今じゃほとんどUnicodeに収録されてるなぁ(もちろんUnicodeがPC-6000を念頭に置いてる訳ではないけども)
と思って眺めてたら,Unicodeに無さそうな文字が。
1/8-7,8,9の総和記号を三分割した文字は多分未来永劫Unicodeには収録されないだろうから,
完全にPC-6000独自の文字として歴史に残るねw そこまで大袈裟に言う必要があるかどうかは不問にするとしてさ。
184デフォルトの名無しさん
2018/04/12(木) 11:32:41.51ID:wSM7wjKl185デフォルトの名無しさん
2018/04/12(木) 12:23:04.48ID:vE9telBE186デフォルトの名無しさん
2018/04/12(木) 23:02:24.84ID:v5/HhBEu187デフォルトの名無しさん
2018/04/13(金) 16:59:26.64ID:l5EupZAQ >>183
あれ、確かUCS/Unicodeにも入ってなかったっけ?
……と思ったらUnicodeに入ってたのは三分割じゃなくて二分割だったか。うーん残念?
U+23B2 ⎲ SUMMATION TOP
U+23B3 ⎳ SUMMATION BOTTOM
あれ、確かUCS/Unicodeにも入ってなかったっけ?
……と思ったらUnicodeに入ってたのは三分割じゃなくて二分割だったか。うーん残念?
U+23B2 ⎲ SUMMATION TOP
U+23B3 ⎳ SUMMATION BOTTOM
188デフォルトの名無しさん
2018/04/14(土) 00:05:01.57ID:qkjW2EcF なんかわからんがすげーかっこいいな
189デフォルトの名無しさん
2018/04/14(土) 03:08:10.81ID:/xxepLwu UCS/Unicodeっていう表現はどういう意味?
190デフォルトの名無しさん
2018/04/14(土) 03:10:11.52ID:lnTeyTPJ ggrks
191デフォルトの名無しさん
2018/04/14(土) 09:40:32.83192デフォルトの名無しさん
2018/04/14(土) 16:05:24.15ID:1T8oabCl ISO-2022-JP/MIME
みたいなもんだと思ってた
みたいなもんだと思ってた
193デフォルトの名無しさん
2018/04/14(土) 21:53:33.44ID:PZtN90rS194デフォルトの名無しさん
2018/04/15(日) 10:32:04.48ID:E1b18XLI それはない
195デフォルトの名無しさん
2018/04/25(水) 16:00:07.45ID:5sIIQOD0 Yahoo!ニュースが突如「? ? ? ? ? 」しか書かれていない記事を公開、閲覧者の脳内が「? ? ? ? ?」になる【修正済み】 - Togetter
https://togetter.com/li/1220498
https://headlines.yahoo.co.jp/hl?a=20180422-00000028-yonh-kr
もう修正されちゃったけど、文字化けの記録として。
https://togetter.com/li/1220498
https://headlines.yahoo.co.jp/hl?a=20180422-00000028-yonh-kr
もう修正されちゃったけど、文字化けの記録として。
196デフォルトの名無しさん
2018/04/25(水) 16:01:07.60ID:5sIIQOD0 Windows 10 機能更新プログラム (2018 Spring Release) における元号のレジストリ更新について – Japan New Era Name Support Blog
https://blogs.technet.microsoft.com/jperablog/2018/04/20/rs4-registry/
「??」ってさあ……もうちょっと、こう、何か無かったのか。
https://blogs.technet.microsoft.com/jperablog/2018/04/20/rs4-registry/
「??」ってさあ……もうちょっと、こう、何か無かったのか。
197デフォルトの名無しさん
2018/04/26(木) 10:43:23.40ID:suNaxvFr Googleが銃の絵文字を水鉄砲へ変更
https://blog.emojipedia.org/google-updates-gun-emoji/
https://blog.emojipedia.org/google-updates-gun-emoji/
198デフォルトの名無しさん
2018/04/26(木) 15:21:01.42ID:dlfZTwzS >>196
でもどうしたらよかったんだろう
でもどうしたらよかったんだろう
199デフォルトの名無しさん
2018/04/26(木) 16:11:58.36ID:obVS20md >>197
これはひどい
これはひどい
200デフォルトの名無しさん
2018/04/26(木) 19:04:18.92ID:B7OLP04x 戦争の場が宇宙に移ったということだろう
水鉄砲というよりもSFにありそうなレーザーガンっぽいしw
水鉄砲というよりもSFにありそうなレーザーガンっぽいしw
201デフォルトの名無しさん
2018/04/26(木) 19:35:12.68ID:vM7mL5EC なぶるとかの漢字も狩られちゃうー
202デフォルトの名無しさん
2018/04/27(金) 04:11:19.93ID:W2h8WuA6 過去の文献のニュアンスが変わってしまいそうだが大丈夫か……
203デフォルトの名無しさん
2018/04/27(金) 07:59:57.84 卍が表示できなくなるのはいつですか?
204デフォルトの名無しさん
2018/04/27(金) 17:46:31.89ID:ash3pEtl 発電所の記号もだめか
205デフォルトの名無しさん
2018/04/27(金) 17:59:20.13ID:l9wD2n6W >>203
双輪にしたらどうかな?www
双輪にしたらどうかな?www
206デフォルトの名無しさん
2018/04/28(土) 14:21:23.68ID:sM690dJm 絵文字のデザインなんて前からコロコロ変わるゆるふわなものだってことじゃないの
U+1F3B1 BILLIARDS は例示ではキューと積まれたボールのデザインだったのに各メーカーは何が気に入らなかったのか知らんけど「8ボール」のデザインで実装
仕方ないので Unicode 12.0 では例示字形を変更し元々のキュー&ボールは U+1F93F BILLIARD GAMES として新たに追加(予定)とか
もう何でもありだなって思うわ。
U+1F3B1 BILLIARDS は例示ではキューと積まれたボールのデザインだったのに各メーカーは何が気に入らなかったのか知らんけど「8ボール」のデザインで実装
仕方ないので Unicode 12.0 では例示字形を変更し元々のキュー&ボールは U+1F93F BILLIARD GAMES として新たに追加(予定)とか
もう何でもありだなって思うわ。
207デフォルトの名無しさん
2018/04/28(土) 17:41:47.97ID:h8rwEw9O モヤイとか昔から出しな
208デフォルトの名無しさん
2018/04/29(日) 04:53:57.13ID:4Tl9MZgN 毛沢東とかもそうだが
馬鹿ほど文字を替えたがる
馬鹿ほど文字を替えたがる
209デフォルトの名無しさん
2018/04/29(日) 22:48:21.31ID:JU8sokja 元々auの絵文字が文字名はモヤイだけどグリフイメージがモアイだしなあ
そんでもってdocomo/Softbankへ送ると[モアイ]になるんだっけ?どっちだよw
そんでもってdocomo/Softbankへ送ると[モアイ]になるんだっけ?どっちだよw
210デフォルトの名無しさん
2018/04/30(月) 04:31:43.91ID:5AUwFsoY モヤモヤするなあ
211デフォルトの名無しさん
2018/04/30(月) 12:14:27.36ID:5HYSW1VB モアモア
212デフォルトの名無しさん
2018/05/01(火) 21:01:23.78ID:L301k72M 新元号への対応に向けた検証とテスト ケースについて
https://blogs.technet.microsoft.com/jperablog/2018/05/01/test-case/
現時点で新元号は発表されておりませんが、新元号に対しても合字を用意すべく、
弊社では Unicode コンソーシアムや日本政府、業界団体とともに
Unicode 上の文字コードの確保や新しい字形の作成、フォントの更新について準備を進めております。
新しい合字のコード ポイント等については未確定の状況でございますが、
今一度、下記のような合字の表示、入力に問題がないかご確認ください。
また新元号の発表後に追加される合字を正しく表示するためにはフォントの更新 (合字のグリフの追加) が必要となりますため、
アプリケーションにてご使用のフォントについても確認が必要と想定されます。
- ~ (U+337B)
- (U+337C)
- (U+337D)
- (U+337E)
また、合字を含めた検索や並べ替えについては、少々考慮が必要です。
弊社の Web 検索 "Bing" では、"~" を検索した際 ”~” と ”平成” の両方が検索されます。
一方、Word では "~" の検索の際には "~" のみが検索されます。
検索や並べ替えの動作についても正規化処理の状況によって異なる結果となることが予想されますため、
ご確認をいただくことをお勧めいたします。
https://blogs.technet.microsoft.com/jperablog/2018/05/01/test-case/
現時点で新元号は発表されておりませんが、新元号に対しても合字を用意すべく、
弊社では Unicode コンソーシアムや日本政府、業界団体とともに
Unicode 上の文字コードの確保や新しい字形の作成、フォントの更新について準備を進めております。
新しい合字のコード ポイント等については未確定の状況でございますが、
今一度、下記のような合字の表示、入力に問題がないかご確認ください。
また新元号の発表後に追加される合字を正しく表示するためにはフォントの更新 (合字のグリフの追加) が必要となりますため、
アプリケーションにてご使用のフォントについても確認が必要と想定されます。
- ~ (U+337B)
- (U+337C)
- (U+337D)
- (U+337E)
また、合字を含めた検索や並べ替えについては、少々考慮が必要です。
弊社の Web 検索 "Bing" では、"~" を検索した際 ”~” と ”平成” の両方が検索されます。
一方、Word では "~" の検索の際には "~" のみが検索されます。
検索や並べ替えの動作についても正規化処理の状況によって異なる結果となることが予想されますため、
ご確認をいただくことをお勧めいたします。
213デフォルトの名無しさん
2018/05/01(火) 21:40:31.70 年号に合字コード用意するのやめようぜ
普通に2文字使えばいいじゃん
どうしても組文字にしたければフォントじゃなくて
ワープロソフトとかDTPソフトにやらせてくれよ
普通に2文字使えばいいじゃん
どうしても組文字にしたければフォントじゃなくて
ワープロソフトとかDTPソフトにやらせてくれよ
214デフォルトの名無しさん
2018/05/02(水) 08:28:01.76ID:6hVpEKUT https://twitter.com/KawamataAkira/status/990740397490978816
そういえば、MSKKの社員だった時代(1990年頃)、自分のまわりにいた日本人の技術者は全員元号のサポートに反対だった。
元号を入れたがったのはアメリカ本社のアメリカ人技術者。
日本人はそんなものサポートしたって面倒が増えるだけだと分かっていたけど、
各国の伝統文化を尊重したというポーズを取って得点を稼ぎたいアメリカ人とは利害が違ったのだと思う。
そういえば、MSKKの社員だった時代(1990年頃)、自分のまわりにいた日本人の技術者は全員元号のサポートに反対だった。
元号を入れたがったのはアメリカ本社のアメリカ人技術者。
日本人はそんなものサポートしたって面倒が増えるだけだと分かっていたけど、
各国の伝統文化を尊重したというポーズを取って得点を稼ぎたいアメリカ人とは利害が違ったのだと思う。
215デフォルトの名無しさん
2018/05/02(水) 10:27:09.46ID:dVOVl8hd フォントで合字するのは別にいいよ
わざわざ文字コードに入れるのがアホなんや
わざわざ文字コードに入れるのがアホなんや
216デフォルトの名無しさん
2018/05/02(水) 15:41:15.94ID:GW3J9sAd 佳子のもはよ
>>214
アメリカ左翼の弊害は底知れないね
アメリカ左翼の弊害は底知れないね
218デフォルトの名無しさん
2018/05/03(木) 01:34:21.57ID:lB3Qws3m219デフォルトの名無しさん
2018/05/03(木) 22:41:08.91ID:zfa+xthz 合字に関しては、直前2文字の表示幅を半分にする制御文字を追加すればいい気がする。
絵文字で肌色指定する制御文字がすでにあるので、それと同じ。
システムにフォント表示幅を変える機能が必要ではあるけど。
絵文字で肌色指定する制御文字がすでにあるので、それと同じ。
システムにフォント表示幅を変える機能が必要ではあるけど。
220デフォルトの名無しさん
2018/05/03(木) 22:43:07.70ID:7QWVobnZ221デフォルトの名無しさん
2018/05/03(木) 22:49:28.42ID:zfa+xthz222デフォルトの名無しさん
2018/05/03(木) 23:02:39.59ID:zfa+xthz あー失礼。直前2文字ごとじゃなくて直前1文字ごとに設定すればいいだけか。
223デフォルトの名無しさん
2018/05/04(金) 00:29:10.94 >>219
ゼロ幅接合子が漢字を対象に使われた場合は、その漢字同士で合字を作るようにすればいい
ゼロ幅接合子が漢字を対象に使われた場合は、その漢字同士で合字を作るようにすればいい
224デフォルトの名無しさん
2018/05/04(金) 02:22:41.61ID:hkSS9FCA 1文字単位で半角幅化できれば合字いらなくなるでしょ。
225デフォルトの名無しさん
2018/05/04(金) 02:36:16.61ID:9i+OMC2T 峠か
226デフォルトの名無しさん
2018/05/04(金) 07:21:22.23ID:u9M1T9G6 文字幅セレクタなんてもんができてしまったら
EAWもfullwidth領域もなんだったんだってことになるだろw
EAWもfullwidth領域もなんだったんだってことになるだろw
227デフォルトの名無しさん
2018/05/04(金) 09:03:45.93 >>224
合字じゃないと縦書きのとき困る
合字じゃないと縦書きのとき困る
228デフォルトの名無しさん
2018/05/04(金) 11:52:27.49ID:J+Z5/byg 単純に幅半分にしたら縦と横の線の太さがチグハグになりそう
フォント屋が頑張って調整すればいいか
フォント屋が頑張って調整すればいいか
229デフォルトの名無しさん
2018/05/04(金) 18:46:40.30ID:hkSS9FCA ネ申 → 神
230デフォルトの名無しさん
2018/05/04(金) 18:55:49.29ID:hkSS9FCA >>228
白黒の2色じゃなくて中間色を使うアンチエリアスが必要。
フォント屋の仕事じゃなくてOSレベル(例:WindowsのClearType)の範疇。
印刷時の見栄えを一致させるには、当然、印刷機も中間色への対応が必要。
白黒の2色じゃなくて中間色を使うアンチエリアスが必要。
フォント屋の仕事じゃなくてOSレベル(例:WindowsのClearType)の範疇。
印刷時の見栄えを一致させるには、当然、印刷機も中間色への対応が必要。
231デフォルトの名無しさん
2018/05/04(金) 20:48:04.97ID:hEI+4DHq 縦倍角 横倍角 四倍角てのをふと思い出したわ
232デフォルトの名無しさん
2018/05/04(金) 21:04:25.47ID:SdH3E9b0 正体を単純に長体にすると視認性が落ちるからとCondensedやCompressedな書体を作ってるデザイナーが見たらガックリくるような話だな
233デフォルトの名無しさん
2018/05/04(金) 21:36:34.74ID:6o7jBY6i このネタいつまで引っ張っても元号に文字コード割り当てようという考えが如何に頭が悪いかということを思い知らされるだけだ
234デフォルトの名無しさん
2018/05/05(土) 04:12:58.69ID:fc3S9c8B 少なくとも期間情報も含めないと意味無いし
235デフォルトの名無しさん
2018/05/05(土) 09:14:26.61 これでその時点の元号を表示すればいいのか
<日本の元号を表すコード(共通)> <西暦年(100の位 : 6〜20)を表す制御コード> <西暦年(0〜99)を表す制御コード> <月(1〜12)を表す制御コード> <日(1〜31)を表す制御コード>
<日本の元号を表すコード(共通)> <西暦年(100の位 : 6〜20)を表す制御コード> <西暦年(0〜99)を表す制御コード> <月(1〜12)を表す制御コード> <日(1〜31)を表す制御コード>
236デフォルトの名無しさん
2018/05/05(土) 09:15:06.04ID:fc3S9c8B なるほど
237デフォルトの名無しさん
2018/05/05(土) 13:12:46.35ID:DMAq375N 文字コードとプログラミングの区別ができない人は、このスレに書き込まないほうがいい。
238デフォルトの名無しさん
2018/05/05(土) 17:28:35.54ID:JV+fv9fZ239デフォルトの名無しさん
2018/05/05(土) 21:59:51.63ID:BTViOdFG 南北朝時代どうすんだ
240デフォルトの名無しさん
2018/05/05(土) 22:12:48.38ID:DMAq375N 全角文字を半角の幅で表示したい潜在需要は、中国や韓国にもあると思うます。
241デフォルトの名無しさん
2018/05/05(土) 23:45:45.90ID:gS+4uwRv 全角文字という概念がそもそも頭悪い感じ
242デフォルトの名無しさん
2018/05/06(日) 00:56:49.53ID:jLP2IXjH 7pt文字から36pt文字までコードを割り当てれば十分だと思う。
243デフォルトの名無しさん
2018/05/06(日) 02:15:11.15 >>239
<日本の元号を表すコード(共通)> <王朝を表す制御コード> <西暦年(100の位 : 6〜20)を表す制御コード> <西暦年(0〜99)を表す制御コード> <月(1〜12)を表す制御コード> <日(1〜31)を表す制御コード>
<日本の元号を表すコード(共通)> <王朝を表す制御コード> <西暦年(100の位 : 6〜20)を表す制御コード> <西暦年(0〜99)を表す制御コード> <月(1〜12)を表す制御コード> <日(1〜31)を表す制御コード>
244デフォルトの名無しさん
2018/05/06(日) 05:44:27.92ID:1UjbZZkI 「制御コード」? 普通の2進コードじゃイカンのか?
245デフォルトの名無しさん
2018/05/06(日) 07:32:19.99 Unicodeの仕組みをよく知らないので
普通の2進コードを書けるならそれで
普通の2進コードを書けるならそれで
246デフォルトの名無しさん
2018/05/06(日) 08:53:27.43ID:xzPVvKwY そんなコード作ったところで検索もできないし、妄想の域にすらない
そもそも漢字で書ける元号に合字が必要かって話だし、まったく方向がおかしい
そもそも漢字で書ける元号に合字が必要かって話だし、まったく方向がおかしい
247デフォルトの名無しさん
2018/05/06(日) 09:21:27.15ID:p3sWeeXN ID隠してる奴なんてあぼーんしとけ
おかしなやつに構う奴も荒しだからな
おかしなやつに構う奴も荒しだからな
248デフォルトの名無しさん
2018/05/06(日) 16:41:35.33ID:89R5dh0N てすと(´・ω・`)
(´◉◞౪◟◉)
(´◉◞౪◟◉)
249デフォルトの名無しさん
2018/05/07(月) 01:07:40.66ID:POBoMmsZ Unicodeの次の概念とかはまだないのかな。それとももうみんなUnicodeに満足してしまっているのかね。
250デフォルトの名無しさん
2018/05/07(月) 01:12:52.35ID:JfD99IBd universeの次がmultiverseなんだから次はmulticodeだろうね。
それかikuracode
それかikuracode
2018/05/07(月) 02:29:48.88ID:UwQrgiVu
Progressive Unicode、略してPunicode
252デフォルトの名無しさん
2018/05/07(月) 02:33:09.58ID:/2aX4qzY glicoodeというやつが開発されてなんか賞取ってた気がする
253デフォルトの名無しさん
2018/05/07(月) 09:24:31.55ID:h5B8tWuv もう変な合成記号類は多数あるし、漢字合字開始、漢字合字終了の2文字だけ定義しとけばいいんじゃないかな。
そうすれば未来永劫大丈夫だ(フォントさえ準備すれば)。北の人とかでも使えるし、なんなら金印とかハンコとかも好きなだけ合成できる。
そうすれば未来永劫大丈夫だ(フォントさえ準備すれば)。北の人とかでも使えるし、なんなら金印とかハンコとかも好きなだけ合成できる。
254デフォルトの名無しさん
2018/05/07(月) 11:16:00.13ID:POBoMmsZ255デフォルトの名無しさん
2018/05/07(月) 13:40:44.12ID:HIVeR9DH >>252
> glicoodeというやつが開発されてなんか賞取ってた気がする
o が1つ多すぎる
正しくは glicode
ポッキーの並べ方でプログラミングするって奴ね
詳しくは次のページを参照
http://cp.glico.jp/glicode/
> glicoodeというやつが開発されてなんか賞取ってた気がする
o が1つ多すぎる
正しくは glicode
ポッキーの並べ方でプログラミングするって奴ね
詳しくは次のページを参照
http://cp.glico.jp/glicode/
256デフォルトの名無しさん
2018/05/07(月) 14:05:14.59ID:QMgv+0U5 「祇園」のフォントというかグリフって間違ってるよね?
Win10とAndroidは同じっぽいけどどっちも間違いの気がする
Win10とAndroidは同じっぽいけどどっちも間違いの気がする
257デフォルトの名無しさん
2018/05/07(月) 15:39:21.55ID:tXPpG5gL >>239
20年以上前にとあるDBマネジメントシステムに関わっていたんだけど、和暦対応を導入しようかって話が出てときに南北朝の話で揉めたよw
あの時はどうやって解決したんだっけかな……西暦→和暦変換の関数にオプションを付けたんだっけかな? (覚えてないやゴメン)
20年以上前にとあるDBマネジメントシステムに関わっていたんだけど、和暦対応を導入しようかって話が出てときに南北朝の話で揉めたよw
あの時はどうやって解決したんだっけかな……西暦→和暦変換の関数にオプションを付けたんだっけかな? (覚えてないやゴメン)
258デフォルトの名無しさん
2018/05/07(月) 16:11:49.95ID:owHHQ9fb259デフォルトの名無しさん
2018/05/07(月) 19:00:55.62ID:tXPpG5gL スレ違い気味の自覚はあるのでほどほどにしときます……
>>258
和暦と西暦の相互変換が出来れば十分という要件だったので、それほど困らなかった気が。
西暦→和暦の変換は問題ないよね?
んで、和暦→西暦の変換では存在しない日付を指定したらエラーにしていたんじゃなかったかな。
(例:明治5年12月3日は存在しないため、西暦に変換しようとしてもエラー)
なお上記では西暦と表記してるけど、実際にはグレゴリオ暦とユリウス暦の違いを意識していた記憶がある。
ただし、どうやって解決していたのか思い出せない…… (使えなくてすみません)。
>>258
和暦と西暦の相互変換が出来れば十分という要件だったので、それほど困らなかった気が。
西暦→和暦の変換は問題ないよね?
んで、和暦→西暦の変換では存在しない日付を指定したらエラーにしていたんじゃなかったかな。
(例:明治5年12月3日は存在しないため、西暦に変換しようとしてもエラー)
なお上記では西暦と表記してるけど、実際にはグレゴリオ暦とユリウス暦の違いを意識していた記憶がある。
ただし、どうやって解決していたのか思い出せない…… (使えなくてすみません)。
260デフォルトの名無しさん
2018/05/08(火) 16:23:34.87ID:75TKeVia どうせスレチなら現代でも太陰暦に変換するツールが必要
261デフォルトの名無しさん
2018/05/08(火) 17:04:12.21ID:K6jgn725 例えば1月30日が存在するかどうかは年ごとに違っていたそうな
https://ja.wikipedia.org/wiki/%E9%96%8F%E6%9C%88
>太陰太陽暦では月の満ち欠けに基づく「30日」と「29日」の二つであり、
>「30日」を「大の月」、「29日」を「小の月」とする。
>しかもこの月の大小は、月の満ち欠けの仕方などによってその順番が年ごとに変わる。
>太陰太陽暦ではこの太陰暦の12ヶ月に、約3年に一度、1ヶ月を加え13ヶ月とし、
>季節とのずれをなるべく少なくする調整をする。この挿入された月を「閏月」という。
>しかしながら閏月をどの時期に入れるかについては、同じ時代でも地域によって食い違うことがあった。
>例えば日本では古来より西日本では伊勢暦、東日本では三島暦が主に用いられたが、
>時として閏月を挿入する時期が異なっていたので、日本国内で日付の異なる暦を使っていた事がある。
https://ja.wikipedia.org/wiki/%E9%96%8F%E6%9C%88
>太陰太陽暦では月の満ち欠けに基づく「30日」と「29日」の二つであり、
>「30日」を「大の月」、「29日」を「小の月」とする。
>しかもこの月の大小は、月の満ち欠けの仕方などによってその順番が年ごとに変わる。
>太陰太陽暦ではこの太陰暦の12ヶ月に、約3年に一度、1ヶ月を加え13ヶ月とし、
>季節とのずれをなるべく少なくする調整をする。この挿入された月を「閏月」という。
>しかしながら閏月をどの時期に入れるかについては、同じ時代でも地域によって食い違うことがあった。
>例えば日本では古来より西日本では伊勢暦、東日本では三島暦が主に用いられたが、
>時として閏月を挿入する時期が異なっていたので、日本国内で日付の異なる暦を使っていた事がある。
262デフォルトの名無しさん
2018/05/08(火) 17:15:53.32ID:75TKeVia 今年は閏月抜いた方が良いくらい季節ずれてる
263デフォルトの名無しさん
2018/05/08(火) 22:52:47.16ID:kruQSPFC 結局Alternative Unicodeはまだ存在しないのか……。
Unicodeの制定が1993年なことを考えると、そろそろ別の規格が立ち上がってもいい筈なんだけどな。
Unicodeの仕組みが余程完璧ならいざしらず。
Unicodeの制定が1993年なことを考えると、そろそろ別の規格が立ち上がってもいい筈なんだけどな。
Unicodeの仕組みが余程完璧ならいざしらず。
264デフォルトの名無しさん
2018/05/08(火) 23:24:51.35ID:91gJGUDl Adobe、Apple、Facebook、Google、IBM、Microsoftといったコンピュータ業界の大会社がUnicode作ってるからなぁ
(実際あるのか知らないけど)他の方面からの立ち上がりに期待するしかないかと。
(実際あるのか知らないけど)他の方面からの立ち上がりに期待するしかないかと。
265デフォルトの名無しさん
2018/05/10(木) 04:31:42.39ID:zLx1ZI77 ローマ数字グリフはUnicodeではCJK互換用文字のように使用が推奨されないとどこかで読んだ記憶があるのですが、間違いでしょうか。
Wikipediaの当該項目を見てもそんなことは書いておらず、困惑してます。
もしも間違いなら積極的にローマ数字グリフを使っていきたいのですが……。
Wikipediaの当該項目を見てもそんなことは書いておらず、困惑してます。
もしも間違いなら積極的にローマ数字グリフを使っていきたいのですが……。
266デフォルトの名無しさん
2018/05/10(木) 13:12:41.31ID:MJdiSWqC >>265
もしかして、これかな?
以下のページに「ただし、Unicodeの仕様では、これらは互換性用の文字であり、対応するラテン文字を用いる方が良いとされています。」という記載がある。
ローマ数字 - CyberLibrarian
http://www.asahi-net.or.jp/~ax2s-kmtn/ref/roman_num.html
Unicode Chart で Roman numerals (U+2160とか) を見てみると Compatibility decomposition mapping としてラテン文字が記載されている。
これを以って上記ページの筆者が「ラテン文字を用いる方が良い」と記載しているのなら、それは解釈が正しくないように思う。
あくまでも互換性があるよ、というだけの注記だと思うのだがどうだろうか。
ちなみに Compatibility decomposition mapping の説明は、こちら。
↓
Code Charts - Help and Links
https://unicode.org/charts/About.html#Key
もしかして、これかな?
以下のページに「ただし、Unicodeの仕様では、これらは互換性用の文字であり、対応するラテン文字を用いる方が良いとされています。」という記載がある。
ローマ数字 - CyberLibrarian
http://www.asahi-net.or.jp/~ax2s-kmtn/ref/roman_num.html
Unicode Chart で Roman numerals (U+2160とか) を見てみると Compatibility decomposition mapping としてラテン文字が記載されている。
これを以って上記ページの筆者が「ラテン文字を用いる方が良い」と記載しているのなら、それは解釈が正しくないように思う。
あくまでも互換性があるよ、というだけの注記だと思うのだがどうだろうか。
ちなみに Compatibility decomposition mapping の説明は、こちら。
↓
Code Charts - Help and Links
https://unicode.org/charts/About.html#Key
267デフォルトの名無しさん
2018/05/10(木) 14:54:38.17ID:jFp8HxnE ふむ
268デフォルトの名無しさん
2018/05/10(木) 16:16:02.53ID:buMLMZ9N 互換分解が設定されてるだけか
270デフォルトの名無しさん
2018/05/13(日) 14:16:53.12ID:dvjI0llt 改元後も「平成」利用へ 納税や年金システム、混乱回避
https://www.asahi.com/articles/ASL5D4T75L5DUTFK004.html
https://www.asahi.com/articles/ASL5D4T75L5DUTFK004.html
271デフォルトの名無しさん
2018/05/15(火) 05:04:52.91ID:vxb29Zje Unicodeの漢字構成文字ってどういうときに使うか分かりますか?
272デフォルトの名無しさん
2018/05/15(火) 05:05:59.52ID:vxb29Zje すいません。漢字構成記述文字列のことです。
273デフォルトの名無しさん
2018/05/16(水) 16:21:48.39ID:MnaY7anS 18.2 表意の説明の文字
表意文字説明文字: U+2FF0–U+2FFB
Unicode Standardには75,000以上のCJK統一的な表意文字が含まれていますが、非常にまれなCJK表意文字の何千もの文字はエンコードされていません。
エンコードのための追加の表意文字の目録の研究は続けられているが、潜在的な符号化可能な表意文字のセット全体が完全に使い果たされることはないと予想される。
特に、表意文字は引き続き作成され、そのような新しい硬貨は常にエンコードされません。
表意文字記述ブロックの12文字は、符号化されていない表意文字を参照する必要があるテキストの標準的な交換の仕組みを提供します。
エンコードされていない表意文字は、これらの文字と符号化された表意文字を使用して記述できます。読者はその記述から表意文字の精神的な絵を作成することができる。
このプロセスは、表意文字の正式な符号化とは異なります。符号化されていない表意文字の標準的な記述はありません。
記述された表意文字に割り当てられた意味はない。記述された表意文字には同値が定義されていません。概念的には、表意文字の説明は、
文字列<U+0065、U+0301>より英語のフレーズ「an ‘e’」に鋭いアクセントを付けたものに近い。
特に、表意文字記述ブロック内の文字のサポートでは、レンダリングエンジンは記述された文字のグラフィック外観を再作成する必要はありません。
また、ユーザーが表意文字を使用して表す可能性のある表意文字の多くは、Unicode標準の将来のバージョンで正式にコード化されることにも注意してください。
表意文字説明文字: U+2FF0–U+2FFB
Unicode Standardには75,000以上のCJK統一的な表意文字が含まれていますが、非常にまれなCJK表意文字の何千もの文字はエンコードされていません。
エンコードのための追加の表意文字の目録の研究は続けられているが、潜在的な符号化可能な表意文字のセット全体が完全に使い果たされることはないと予想される。
特に、表意文字は引き続き作成され、そのような新しい硬貨は常にエンコードされません。
表意文字記述ブロックの12文字は、符号化されていない表意文字を参照する必要があるテキストの標準的な交換の仕組みを提供します。
エンコードされていない表意文字は、これらの文字と符号化された表意文字を使用して記述できます。読者はその記述から表意文字の精神的な絵を作成することができる。
このプロセスは、表意文字の正式な符号化とは異なります。符号化されていない表意文字の標準的な記述はありません。
記述された表意文字に割り当てられた意味はない。記述された表意文字には同値が定義されていません。概念的には、表意文字の説明は、
文字列<U+0065、U+0301>より英語のフレーズ「an ‘e’」に鋭いアクセントを付けたものに近い。
特に、表意文字記述ブロック内の文字のサポートでは、レンダリングエンジンは記述された文字のグラフィック外観を再作成する必要はありません。
また、ユーザーが表意文字を使用して表す可能性のある表意文字の多くは、Unicode標準の将来のバージョンで正式にコード化されることにも注意してください。
274デフォルトの名無しさん
2018/05/16(水) 16:22:58.76ID:MnaY7anS 表意記述アルゴリズムは、実質的に全てのCJK表意文字を、それ自体が表意文字であるより小さな部分に分解することができるという事実に依存する。
Unicode標準ですでにエンコードされている表意文字の広い範囲は、符号化されていない表意文字の大部分が表意文字を使用して表現できることを意味します。
表象記述シーケンスは、主に符号化されていない表意文字を表すことを目的としていますが、符号化された表意文字を表すためにデータ交換に使用すべきではありませんが、教育的および分析的用途もあります。
たとえば、研究者は、U+86D9 蛙を「虫圭」としてデータベースに表現して、U+5A03 娃などの音声を共有する他の文字との間のリンクを提供することができます。
IRGは、このような方法で表意記述シーケンスを使用して、現行の作業のための、機械によって生成された最初の近似を提供するのに役立てています。
Unicode標準ですでにエンコードされている表意文字の広い範囲は、符号化されていない表意文字の大部分が表意文字を使用して表現できることを意味します。
表象記述シーケンスは、主に符号化されていない表意文字を表すことを目的としていますが、符号化された表意文字を表すためにデータ交換に使用すべきではありませんが、教育的および分析的用途もあります。
たとえば、研究者は、U+86D9 蛙を「虫圭」としてデータベースに表現して、U+5A03 娃などの音声を共有する他の文字との間のリンクを提供することができます。
IRGは、このような方法で表意記述シーケンスを使用して、現行の作業のための、機械によって生成された最初の近似を提供するのに役立てています。
275デフォルトの名無しさん
2018/05/17(木) 01:28:29.13ID:zp+h7fJf Google翻訳ですか?
276デフォルトの名無しさん
2018/05/17(木) 12:27:06.84ID:HY+Xmele リンク貼るだけのレスの方がましだな
277デフォルトの名無しさん
2018/05/18(金) 14:45:32.55ID:Eucqc6d6 >>265 で「CJK互換用文字のように使用が推奨されない」とあるけど、その根拠ってどこにあるのか分かる方いますか?
日本語ウィキペディアには「後方互換性のために収録されており使用は推奨されない」と書かれてるけど、その根拠が明示されてないんですよね。
一応注釈も記載されてはいるんだけど、>>266と同じような資料なので「使用は推奨されない」とは読み取り難い気がする。
そこで英語ウィキペディアを見に行くと「for compatibility with east Asian character sets」とだけ書かれていて、「使用は推奨されない」という旨は一言も書いてない。
とまあ、こんなわけなので、この迷える子羊にどなたかご教示ください。
日本語ウィキペディアには「後方互換性のために収録されており使用は推奨されない」と書かれてるけど、その根拠が明示されてないんですよね。
一応注釈も記載されてはいるんだけど、>>266と同じような資料なので「使用は推奨されない」とは読み取り難い気がする。
そこで英語ウィキペディアを見に行くと「for compatibility with east Asian character sets」とだけ書かれていて、「使用は推奨されない」という旨は一言も書いてない。
とまあ、こんなわけなので、この迷える子羊にどなたかご教示ください。
278277
2018/05/18(金) 14:51:49.75ID:Eucqc6d6 いけね、URL を貼り忘れてた。
CJK互換用文字 - Wikipedia
https://ja.wikipedia.org/wiki/CJK%E4%BA%92%E6%8F%9B%E7%94%A8%E6%96%87%E5%AD%97
CJK Compatibility - Wikipedia
https://en.wikipedia.org/wiki/CJK_Compatibility
CJK互換用文字 - Wikipedia
https://ja.wikipedia.org/wiki/CJK%E4%BA%92%E6%8F%9B%E7%94%A8%E6%96%87%E5%AD%97
CJK Compatibility - Wikipedia
https://en.wikipedia.org/wiki/CJK_Compatibility
279デフォルトの名無しさん
2018/05/20(日) 21:42:19.91ID:k7uIgkh0 10646/Unicodeでは非推奨とまでは定めていないと思うよ
ローマ数字はShift_JISだと化けやすいんでローマ数字の使用そのものが悪みたいに
思ってる人がいるだけだと思う
ローマ数字はShift_JISだと化けやすいんでローマ数字の使用そのものが悪みたいに
思ってる人がいるだけだと思う
280デフォルトの名無しさん
2018/05/20(日) 22:44:23.30ID:SBKTPpMQ 0点、1点、2点、…とかMS明朝やゴシックに入ってるのを最初見た時、試合等の点数を表すためのものかと思ってた。
でも名称を調べて違う事を知った。そしてそれらは中国語のためのもので中国語では時刻の○時が○点になることも。
でも名称を調べて違う事を知った。そしてそれらは中国語のためのもので中国語では時刻の○時が○点になることも。
281デフォルトの名無しさん
2018/05/21(月) 10:10:37.23ID:PPw/imVw282デフォルトの名無しさん
2018/05/21(月) 10:11:23.00ID:PPw/imVw283デフォルトの名無しさん
2018/05/21(月) 10:13:27.36ID:6DKDYwaD 0点
やり直せ
やり直せ
284デフォルトの名無しさん
2018/05/21(月) 12:38:29.27ID:3MQFDVVp 日本語フォントの場合は点を時に
韓国語フォントの場合は시に
繁体字フォントの場合は點に
はダメなんだろうか。
韓国語フォントの場合は시に
繁体字フォントの場合は點に
はダメなんだろうか。
285デフォルトの名無しさん
2018/05/21(月) 13:07:55.25ID:5HdLEL73 日本語フォントの場合は時を時に
韓国語フォントの場合は時に
繁体字フォントの場合は時に
はダメなんだろうか。
韓国語フォントの場合は時に
繁体字フォントの場合は時に
はダメなんだろうか。
286デフォルトの名無しさん
2018/05/21(月) 15:22:15.07ID:XnV9ry7u CJK互換文字非推奨とかローマ数字非推奨とか、根拠の乏しいアピールがあちこちにあるのが気持ち悪い。
自分の好みを主張するのは構わないけど、Unicode でそのように提言されているかのように振る舞うのは気に入らない。
……という気持ちはどこにぶつければよいのだろうか?
自分の好みを主張するのは構わないけど、Unicode でそのように提言されているかのように振る舞うのは気に入らない。
……という気持ちはどこにぶつければよいのだろうか?
287デフォルトの名無しさん
2018/05/21(月) 15:47:01.21ID:h7wqMmMV 取り敢えず>>266のリンク先の作者にぶつけるべきでは
288デフォルトの名無しさん
2018/05/21(月) 21:39:44.96ID:owdLx3Iu ㌀㌁㌂e㌄㌅㌆㌇㌈㌉
㌊㌋㌌i㌎㌏㌐㌑㌒㌓
`㌕㌖㌗c㌙㌚㌛㌜㌝
㌞㌟㌠㌡ak㌤㌥jd
㌨㌩㌪l㌬㌭㌮㌯㌰㌱
㌲㌳㌴㌵f㌷㌸㌹㌺n
㌼㌽㌾㌿㍀㍁㍂㍃㍄㍅
㍆㍇㍈_m㍋㍌b㍎㍏
㍐g㍒㍓㍔㍕㍖h㍘㍙
㍚㍛㍜㍝㍞㍟㍠㍡㍢㍣
㍤㍥㍦㍧㍨㍩㍪㍫㍬㍭
㍮㍯㍰㍱㍲㍳㍴㍵㍶㍷
㍸㍹㍺~順紫㍿
㌊㌋㌌i㌎㌏㌐㌑㌒㌓
`㌕㌖㌗c㌙㌚㌛㌜㌝
㌞㌟㌠㌡ak㌤㌥jd
㌨㌩㌪l㌬㌭㌮㌯㌰㌱
㌲㌳㌴㌵f㌷㌸㌹㌺n
㌼㌽㌾㌿㍀㍁㍂㍃㍄㍅
㍆㍇㍈_m㍋㍌b㍎㍏
㍐g㍒㍓㍔㍕㍖h㍘㍙
㍚㍛㍜㍝㍞㍟㍠㍡㍢㍣
㍤㍥㍦㍧㍨㍩㍪㍫㍬㍭
㍮㍯㍰㍱㍲㍳㍴㍵㍶㍷
㍸㍹㍺~順紫㍿
289デフォルトの名無しさん
2018/05/21(月) 21:42:15.10ID:owdLx3Iu ㎀㎁
㎂㎃㎄㎅㎆㎇㎈㎉㎊㎋
㎌㎍rs㎐㎑㎒㎓㎔㎕
㎖㎗㎘㎙㎚㎛opq㎟
㎠u㎢㎣㎤㎥㎦㎧㎨㎩
㎪㎫㎬㎭㎮㎯㎰㎱㎲㎳
㎴㎵㎶㎷㎸㎹㎺㎻㎼㎽
㎾㎿㏀㏁㏂㏃t㏅㏆㏇
㏈㏉㏊㏋㏌㏎㏏㏐㏑
㏒㏓㏔㏕㏖㏗㏘㏙㏚㏛
㏜㏝㏞㏟㏠㏡㏢㏣㏤㏥
㏦㏧㏨㏩㏪㏫㏬㏭㏮㏯
㏰㏱㏲㏳㏴㏵㏶㏷㏸㏹
㏺㏻㏼㏽㏾㏿
㎂㎃㎄㎅㎆㎇㎈㎉㎊㎋
㎌㎍rs㎐㎑㎒㎓㎔㎕
㎖㎗㎘㎙㎚㎛opq㎟
㎠u㎢㎣㎤㎥㎦㎧㎨㎩
㎪㎫㎬㎭㎮㎯㎰㎱㎲㎳
㎴㎵㎶㎷㎸㎹㎺㎻㎼㎽
㎾㎿㏀㏁㏂㏃t㏅㏆㏇
㏈㏉㏊㏋㏌㏎㏏㏐㏑
㏒㏓㏔㏕㏖㏗㏘㏙㏚㏛
㏜㏝㏞㏟㏠㏡㏢㏣㏤㏥
㏦㏧㏨㏩㏪㏫㏬㏭㏮㏯
㏰㏱㏲㏳㏴㏵㏶㏷㏸㏹
㏺㏻㏼㏽㏾㏿
290デフォルトの名無しさん
2018/05/21(月) 21:59:03.03ID:V+3Z+fIi 頭がおかしくなりそうだ
291デフォルトの名無しさん
2018/05/21(月) 22:38:58.14ID:x+xM1a4p 絵文字テスト😁
292デフォルトの名無しさん
2018/05/21(月) 22:58:22.68ID:kKTehq+9 >>288
2バイト文字ってやはり狂っているな
なぜこのようなものまで一字で表示しようと考えたのか…
一字にすることで容量を節約できると考えたのだろうが、
その節約のために無駄な手間暇がかかり結果的にマイナスにしかならないという
2バイト文字ってやはり狂っているな
なぜこのようなものまで一字で表示しようと考えたのか…
一字にすることで容量を節約できると考えたのだろうが、
その節約のために無駄な手間暇がかかり結果的にマイナスにしかならないという
293デフォルトの名無しさん
2018/05/21(月) 23:23:05.67ID:XnV9ry7u294デフォルトの名無しさん
2018/05/22(火) 00:22:22.07ID:3h/yZ372 肌色テスト👮
👮🏻👮🏼👮🏽👮🏾👮🏿
👮🏻👮🏼👮🏽👮🏾👮🏿
295デフォルトの名無しさん
2018/05/22(火) 00:47:54.81 ○囲み文字の1字版と2字版のテストもおながいします
296293
2018/05/22(火) 00:49:04.48ID:pl4uFglU 酔った勢いでレスしたら自演だった……恥ずかしい (いきなり酔いが覚めた)。
つまんないことしちゃってごめん、しばらく自重します。
つまんないことしちゃってごめん、しばらく自重します。
297デフォルトの名無しさん
2018/05/22(火) 04:36:23.18ID:XuSnYVx6 絵文字そのものはどうとも思ってないけど
通常の文章の中で使われる矢印がある種の入力環境だと絵文字で入力されるみたいで
「←このように」が「⬅このように」ってなるのがすごく気持ち悪い。UnicodeというよりIMEに対する不満。
通常の文章の中で使われる矢印がある種の入力環境だと絵文字で入力されるみたいで
「←このように」が「⬅このように」ってなるのがすごく気持ち悪い。UnicodeというよりIMEに対する不満。
298デフォルトの名無しさん
2018/05/22(火) 11:48:04.68ID:3h/yZ372 全角チルダがwindowsユーザーとmacユーザーで違うのも厄介
windows 〜
mac 〜
windows 〜
mac 〜
299デフォルトの名無しさん
2018/05/22(火) 11:57:18.21ID:xGwd/XeK @ABCDEFGHIJKLMNOPQRS
301デフォルトの名無しさん
2018/05/22(火) 13:35:03.46ID:d3LCNcLv オマエガナー
302デフォルトの名無しさん
2018/05/22(火) 13:36:25.53ID:1HkhrVs+ プッ
303デフォルトの名無しさん
2018/05/22(火) 14:15:36.11ID:3h/yZ372 化けてますよ。
👻 🎃 👹 👺 👽 💀 🧛 🧟
👻 🎃 👹 👺 👽 💀 🧛 🧟
304デフォルトの名無しさん
2018/05/22(火) 14:35:44.60ID:xGwd/XeK 🏇̪鹿
🐎鹿
🐴鹿
🐎鹿
🐴鹿
305デフォルトの名無しさん
2018/05/22(火) 14:45:39.70ID:3h/yZ372 ひょっとしてバカなの?
🏇🦌
🐎🦌
🐴🦌
🏇🦌
🐎🦌
🐴🦌
306デフォルトの名無しさん
2018/05/22(火) 18:00:59.35ID:KBN0pglL >>305
化けてんぞバーカwwwww
化けてんぞバーカwwwww
307デフォルトの名無しさん
2018/05/22(火) 18:47:42.14ID:XuSnYVx6 ということにしたいのですね
308デフォルトの名無しさん
2018/05/23(水) 02:23:03.50ID:Z0QXrqgL unicode と ISO10646 は互換性があるけど適用範囲とか微妙に違ったりする。
非推奨とかはISO/JISの方を念頭に置いた話ではなかろうか。
非推奨とかはISO/JISの方を念頭に置いた話ではなかろうか。
309デフォルトの名無しさん
2018/05/23(水) 18:48:25.05ID:2DlA2Ju+ ローマ数字の話だよね?
ISO/IEC 10646にもそんな規定は無いような……コードチャートはUnicodeと同じもの使ってるし。
JIS X 0221の方は真面目に読んでないからよく分からんが……
でもISO/IEC 10646の国際一致規格な以上日本独自でそんな規定は入ってないと思うけど。
ISO/IEC 10646にもそんな規定は無いような……コードチャートはUnicodeと同じもの使ってるし。
JIS X 0221の方は真面目に読んでないからよく分からんが……
でもISO/IEC 10646の国際一致規格な以上日本独自でそんな規定は入ってないと思うけど。
310デフォルトの名無しさん
2018/05/24(木) 01:13:38.27ID:Nk0sJPwS311デフォルトの名無しさん
2018/05/24(木) 01:29:22.08ID:fftgGS82 ここにはまだ来てないのか
312デフォルトの名無しさん
2018/05/24(木) 14:00:09.03ID:A4JtYMZ4 ローマ数字やCJK互換用文字が「推奨されない」という記述がブログやWikipediaに散見されるけど、それって根拠が無いよね? という話だと思って眺めてるよ。
こういう聞こえの良いデマを否定するのは体力がいるから面倒そうだよなー
こういう聞こえの良いデマを否定するのは体力がいるから面倒そうだよなー
313デフォルトの名無しさん
2018/05/24(木) 14:03:05.24ID:fftgGS82 TUVWXYZ[\]ⅪⅫ
Ⅽ
Ⅿ
ↂ
Ⅽ
Ⅿ
ↂ
314デフォルトの名無しさん
2018/05/25(金) 01:56:34.37ID:562g8vT6 >>312
いつものネット伝言ゲームじゃないか?
日本語での利用を前提として、うろ覚えだけど
1. ISO10646とユニコード規格は厳密に言えば同じではない(事実)
2. ISO10646 は部分実装を許しているための全ての文字が等価ではない(事実)
3. ISO/JIS は部分実装のために日本語向けの文字の組を決めてる(事実)
4. ユニコード実装するならば、日本語向けの文字の組のうち主要なもにには対応すべき(たんなる日本人の願望)
5. ネットなどで不特定多数との通信する前提の場合には、主要な組に入ってない文字は相手側で読めない可能性があるので推奨しない(どこかの個人の意見ならわからなくもない)
6. 日本語のための文字の組にはローマ数字は含まれていない(微妙、ISO規格本体にはまだ入ってないが、JISの参考になら含まれた気がする)
...
中略
...
99.ユニコード規格でローマ数字は推奨されない(デマ)
いつものネット伝言ゲームじゃないか?
日本語での利用を前提として、うろ覚えだけど
1. ISO10646とユニコード規格は厳密に言えば同じではない(事実)
2. ISO10646 は部分実装を許しているための全ての文字が等価ではない(事実)
3. ISO/JIS は部分実装のために日本語向けの文字の組を決めてる(事実)
4. ユニコード実装するならば、日本語向けの文字の組のうち主要なもにには対応すべき(たんなる日本人の願望)
5. ネットなどで不特定多数との通信する前提の場合には、主要な組に入ってない文字は相手側で読めない可能性があるので推奨しない(どこかの個人の意見ならわからなくもない)
6. 日本語のための文字の組にはローマ数字は含まれていない(微妙、ISO規格本体にはまだ入ってないが、JISの参考になら含まれた気がする)
...
中略
...
99.ユニコード規格でローマ数字は推奨されない(デマ)
315デフォルトの名無しさん
2018/05/26(土) 14:41:00.14ID:OAwkZ9ha > 6. 日本語のための文字の組にはローマ数字は含まれていない(微妙、ISO規格本体にはまだ入ってないが、JISの参考になら含まれた気がする)
昨年末の ISO10646の改訂でJISが参考で定義していた COMMON JAPANESE も正式にISO規格に取り込まれた模様。
ということでローマ数字は BASIC JAPANESE には含まれてないけど COMMON JAPANESE には含まれてるくらいの位置付け。
昨年末の ISO10646の改訂でJISが参考で定義していた COMMON JAPANESE も正式にISO規格に取り込まれた模様。
ということでローマ数字は BASIC JAPANESE には含まれてないけど COMMON JAPANESE には含まれてるくらいの位置付け。
316デフォルトの名無しさん
2018/05/26(土) 22:58:23.91ID:oSB4DgY3 285 BASIC JAPANESE と 287 COMMON JAPANESE が 10646 に入ったのは10年前の ISO/IEC 10646:2003/Amd 3:2008 じゃないの?
昨年末の改訂とか正式にISO規格にって何の話?
昨年末の改訂とか正式にISO規格にって何の話?
317デフォルトの名無しさん
2018/05/26(土) 23:54:42.44ID:OAwkZ9ha もう JIS参考でも、amd でもなくて、正式規格本体にあるよ。情報古かったという話。
Amd3:2008 にあるんなら正式規格 ISO/IEC 10646:2012 にもあるかもしれん。確認できんけど。
Amd3:2008 にあるんなら正式規格 ISO/IEC 10646:2012 にもあるかもしれん。確認できんけど。
318デフォルトの名無しさん
2018/05/27(日) 10:24:34.33ID:rLKmcl7g 規格本体に入ったのは ISO/IEC 10646:2011
319デフォルトの名無しさん
2018/05/28(月) 01:39:25.84ID:Ci0ddO0a >>286,312
CJK互換文字のラウンドトリップ用のものはUnicode規格書に明記されてる
> They are included in the Unicode Standard to provide full round-trip compatibility
> with the ideographic repertoire of ... and should not be used for any other purpose.
http://www.unicode.org/versions/Unicode10.0.0/ch18.pdf#page=21
CJK互換文字のラウンドトリップ用のものはUnicode規格書に明記されてる
> They are included in the Unicode Standard to provide full round-trip compatibility
> with the ideographic repertoire of ... and should not be used for any other purpose.
http://www.unicode.org/versions/Unicode10.0.0/ch18.pdf#page=21
320デフォルトの名無しさん
2018/05/28(月) 13:25:04.14ID:+smoTcYJ 「推奨しない」でたね
321デフォルトの名無しさん
2018/05/28(月) 14:52:12.71ID:AZENlZb2 素晴らしい。こういうちゃんとした情報は歓迎するよ。
そうか、CJK互換文字の利用は「推奨しない」と仕様書に明記されているんだね。覚えておこう。
そうか、CJK互換文字の利用は「推奨しない」と仕様書に明記されているんだね。覚えておこう。
322デフォルトの名無しさん
2018/05/28(月) 16:00:24.98ID:OZmKBhwA 「完全なラウンドトリップ互換性の為に提供するものであり、それ以外の使用は推奨しない」
だから問答無用で“should not be used”と言ってる訳じゃないけどね。
だから問答無用で“should not be used”と言ってる訳じゃないけどね。
323デフォルトの名無しさん
2018/05/28(月) 22:09:23.88 こまけえこたあいいんだよ
324デフォルトの名無しさん
2018/05/29(火) 11:31:12.88ID:gAWLYOTz325デフォルトの名無しさん
2018/05/29(火) 11:40:21.01ID:QKhV4oKb 伝聞デマの好例
326デフォルトの名無しさん
2018/05/29(火) 18:40:11.76ID:P35/pWO/ 結局デマじゃないんでしょ?
327デフォルトの名無しさん
2018/05/29(火) 22:34:44.54ID:j6aBPmpG 324は何を怒ってるんだ
319のフレーズは複数回出てきてその都度...の部分の規格書名が変わるだけだろうに
319のフレーズは複数回出てきてその都度...の部分の規格書名が変わるだけだろうに
328デフォルトの名無しさん
2018/05/30(水) 12:07:23.64ID:iPjSEnXB いやだからUnicode公式が推奨しないと言ってるのは事実なんだろ。デマじゃないじゃん。
なんでもかんでもデマ扱いすれば自分が偉くなったような錯覚になって気分が良いのかもしれないが
迷惑だよ、そういう態度は。
なんでもかんでもデマ扱いすれば自分が偉くなったような錯覚になって気分が良いのかもしれないが
迷惑だよ、そういう態度は。
329デフォルトの名無しさん
2018/05/30(水) 13:24:00.49ID:uOQbJF8C330デフォルトの名無しさん
2018/05/30(水) 14:33:31.86ID:glkZKJxk 復旧
🖕🏻🖕🏼🖕🏽🖕🏾🖕🏿🖕
🖕🏻🖕🏼🖕🏽🖕🏾🖕🏿🖕
331デフォルトの名無しさん
2018/05/30(水) 20:29:52.46ID:+kRmOuNK >>329
多分違う。
「CJK互換文字の一部には特定目的以外に使用すべきでない文字がある」が正しい。
318 はわざとか天然かは知らんが、CJK互換文字の一部にしか適用されないルールを、適用範囲の部分を抜かして引用して、あたかも全体に適用するルールであるかのように誤解する書き方をしてある。
あとは、それを鵜呑みした迂闊さんが「CJK互換文字は推奨されない(キリッ)」ってデマを広げる構図。
多分違う。
「CJK互換文字の一部には特定目的以外に使用すべきでない文字がある」が正しい。
318 はわざとか天然かは知らんが、CJK互換文字の一部にしか適用されないルールを、適用範囲の部分を抜かして引用して、あたかも全体に適用するルールであるかのように誤解する書き方をしてある。
あとは、それを鵜呑みした迂闊さんが「CJK互換文字は推奨されない(キリッ)」ってデマを広げる構図。
332デフォルトの名無しさん
2018/05/30(水) 20:46:20.24ID:/bFYrAtR だから「ラウンドトリップ用」って話だろ?
333デフォルトの名無しさん
2018/05/30(水) 20:50:56.47ID:+kRmOuNK >>331
タイプミス。318→319
タイプミス。318→319
334デフォルトの名無しさん
2018/05/30(水) 20:55:57.87ID:+kRmOuNK335デフォルトの名無しさん
2018/05/30(水) 21:06:09.88ID:JjJ1rb8T 気に入らないなら自分で満足の行くように書き直して貼り付ければ?
典拠示されてるんだから。
典拠示されてるんだから。
336デフォルトの名無しさん
2018/05/31(木) 00:48:48.00ID:Rt4SPplt そんな中途半端に書き直して貼り付けるからデマの元になるんだろ。反省しろ。
337デフォルトの名無しさん
2018/05/31(木) 05:31:03.12ID:fKyHNhNo デマはどっちだよ……「CJK互換文字は」という文脈からは「CJK互換文字に含まれる全ての文字は」という意味しか受け取れないのだが?
「一部」なんていう表現はどっから湧き出てきたんだよ……。
「一部」なんていう表現はどっから湧き出てきたんだよ……。
338デフォルトの名無しさん
2018/05/31(木) 09:53:50.67ID:Rt4SPplt339デフォルトの名無しさん
2018/05/31(木) 12:04:29.61 ケチ付けるんなら他人を納得させられる論拠と出典を出せよ
それができないんなら『CJK互換文字の利用は「推奨しない」』が正解だ
それができないんなら『CJK互換文字の利用は「推奨しない」』が正解だ
340デフォルトの名無しさん
2018/05/31(木) 15:11:25.68ID:LXR1oL3d 南京大虐殺は30万人アルニダ
341デフォルトの名無しさん
2018/05/31(木) 20:31:47.82ID:fKyHNhNo 誰か結論下さい(他力本願)。
342デフォルトの名無しさん
2018/05/31(木) 23:08:01.93ID:CO1u2co/ >>319のリンク先の規格書で、ラウンドトリップ用だから使用を推奨しないとされているのは以下の3種類だけ。
全体を非推奨とはしていないな。
・U+FA30〜U+FA6A (JIS X 0213:2000)
・U+FA6B〜U+FA6D (ARIB STD-B24)
・U+FA70〜U+FAD9 (KPS 10721-2000)
全体を非推奨とはしていないな。
・U+FA30〜U+FA6A (JIS X 0213:2000)
・U+FA6B〜U+FA6D (ARIB STD-B24)
・U+FA70〜U+FAD9 (KPS 10721-2000)
343デフォルトの名無しさん
2018/06/01(金) 05:30:12.89ID:vog2AnDp 誰が誰かよくわかんないけど少なくともCJK互換漢字の一部に関しては
非推奨の根拠はあったってことでしょ
不正確だと思ったならそうじゃなくてこうだって言えばそれで済んだ話だろうに
そうせずにネチネチ言うばっかだから無駄に荒れる
非推奨の根拠はあったってことでしょ
不正確だと思ったならそうじゃなくてこうだって言えばそれで済んだ話だろうに
そうせずにネチネチ言うばっかだから無駄に荒れる
344デフォルトの名無しさん
2018/06/01(金) 07:06:38.23ID:RdSMK5as345デフォルトの名無しさん
2018/06/01(金) 08:37:44.05ID:d/KZJvqH >>343
一部でしかないのを全部のように言うから伝聞デマって言われたんだろ。
一部でしかないのを全部のように言うから伝聞デマって言われたんだろ。
346デフォルトの名無しさん
2018/06/01(金) 11:58:37.96 >>342
一般の開発者やユーザーは「CJK互換文字の利用は推奨しない」で覚えておいた方が漏れがなくて安心だな
一般の開発者やユーザーは「CJK互換文字の利用は推奨しない」で覚えておいた方が漏れがなくて安心だな
347デフォルトの名無しさん
2018/06/01(金) 12:07:07.22ID:uCsHgk1n 規格書嫁とか無茶言うやつがいます。
あれは暗号で書いてあるので書いた人にも読めません。
あれは暗号で書いてあるので書いた人にも読めません。
348デフォルトの名無しさん
2018/06/01(金) 12:41:04.24ID:gevSrdmF あなたの能力の限界が人並み外れて低いからといって他人を同類扱いするのは良くない
349デフォルトの名無しさん
2018/06/01(金) 14:43:43.87ID:s/+fnCQL >>346
お前のような拡大解釈したいやつは「ユニコードの利用は推奨しない」で覚えておけば漏れがなくて完璧だな。
お前のような拡大解釈したいやつは「ユニコードの利用は推奨しない」で覚えておけば漏れがなくて完璧だな。
350デフォルトの名無しさん
2018/06/01(金) 22:29:28.35ID:/Zhh/Hrk351デフォルトの名無しさん
2018/06/01(金) 22:43:44.67352デフォルトの名無しさん
2018/06/01(金) 23:15:14.57ID:/Zhh/Hrk353デフォルトの名無しさん
2018/06/01(金) 23:19:16.78ID:d/KZJvqH 既にデマは溢れてるので、今さら少しくらいデマが増えたところで、どうってことないという見方もあるが
規格の話をするなら細かい点を無視するとかありえない。
あえて >>350 にさらに細かい点をつっこむと
U+3300 - U+33FF は CJK互換ブロック(CJK Compatibility Block)
U+F900 - U+FAFF は CJK互換漢字ブロック(CJK Compatibility Ideograph Block)
とするのが正しいはずで「CJK互換文字」というのは表現は規格にはなかったと思う。
他にも
CJK Compatibility Forms (U+FE30 - UFE4F)
CJK Compatibility Ideograph Supplement (U+2F800 - U+2FA1D)
とかもあるので、勝手な名前とか使い始めるのはデマの元。
規格の話をするなら細かい点を無視するとかありえない。
あえて >>350 にさらに細かい点をつっこむと
U+3300 - U+33FF は CJK互換ブロック(CJK Compatibility Block)
U+F900 - U+FAFF は CJK互換漢字ブロック(CJK Compatibility Ideograph Block)
とするのが正しいはずで「CJK互換文字」というのは表現は規格にはなかったと思う。
他にも
CJK Compatibility Forms (U+FE30 - UFE4F)
CJK Compatibility Ideograph Supplement (U+2F800 - U+2FA1D)
とかもあるので、勝手な名前とか使い始めるのはデマの元。
354デフォルトの名無しさん
2018/06/02(土) 03:00:41.99 弊社の開発プロジェクトでは「CJK互換」と名の付く文字は一律使用禁止とします
355デフォルトの名無しさん
2018/06/02(土) 05:43:50.91ID:6Boi961X Unicodeが公式に「利用を推奨しない」と明言しているのはCJK互換表意文字のそれも一部ってことはデマじゃないよね?
356デフォルトの名無しさん
2018/06/02(土) 06:07:25.49ID:23A3G5JH ここまでの議論読ませてもらったが
「利用を推奨しない」
と
「(他規格)との完全ラウンドトリップ互換を提供すためにユニコード規格に含まれている、それ以外の目的に使用すべきではない」
とだと規格上の意味が全然違う気がするんだが?
前者は利用の否定で、後者は利用目的の限定で利用は否定してない。
「利用を推奨しない」
と
「(他規格)との完全ラウンドトリップ互換を提供すためにユニコード規格に含まれている、それ以外の目的に使用すべきではない」
とだと規格上の意味が全然違う気がするんだが?
前者は利用の否定で、後者は利用目的の限定で利用は否定してない。
357デフォルトの名無しさん
2018/06/02(土) 08:33:48.72ID:6Boi961X358デフォルトの名無しさん
2018/06/02(土) 13:06:52.93ID:23A3G5JH 「これは食べられません」
と
「電子レンジ調理専用」
と
「電子レンジ調理専用」
359デフォルトの名無しさん
2018/06/02(土) 13:52:43.55ID:yUEJ+BJS Scheduled maintenance on June 2 and June 9 between 5am pst and 6pm pst. Expect down times of up to 5 hours while we upgrade the power feeds in our data center.
5ちゃんねるサーバ群が収容されているデータセンタにおいて給電装置の更新のため閲覧書き込みが出来なくなります
予定されている期間は以下の通りです
2018年6月2日(土)21時から2018年6月3日(日)10時
2018年6月9日(土)21時から2018年6月3日(日)10時
上記時間帯のうち最大5時間程度の停電が発生すると予想されています
不便をお掛けしますがよろしくお願い致します
5ちゃんねるサーバ群が収容されているデータセンタにおいて給電装置の更新のため閲覧書き込みが出来なくなります
予定されている期間は以下の通りです
2018年6月2日(土)21時から2018年6月3日(日)10時
2018年6月9日(土)21時から2018年6月3日(日)10時
上記時間帯のうち最大5時間程度の停電が発生すると予想されています
不便をお掛けしますがよろしくお願い致します
361デフォルトの名無しさん
2018/06/04(月) 17:00:48.61ID:pTAw0294 >>342
マジか、マジだ
つまり最初に入ったKS X 1001/Big5/IBMは仕様書上では何も言われてなくて
後から入ったJIS X 0213とかは「ラウンドトリップ以外の使用は推奨しない」と明記なのか。
こんなことならJIS X 0213も無理してBMPに入れずにCNS 11643の残りと一緒にCJK統合漢字拡張Bに入れてもらえばよかったのに
(それが可能だったのかどうかは知らない)。
マジか、マジだ
つまり最初に入ったKS X 1001/Big5/IBMは仕様書上では何も言われてなくて
後から入ったJIS X 0213とかは「ラウンドトリップ以外の使用は推奨しない」と明記なのか。
こんなことならJIS X 0213も無理してBMPに入れずにCNS 11643の残りと一緒にCJK統合漢字拡張Bに入れてもらえばよかったのに
(それが可能だったのかどうかは知らない)。
362デフォルトの名無しさん
2018/06/04(月) 23:13:57.26ID:M5dk3jbS 後半、ちょっと違うんでは? JIS X 0213 の追加漢字は別に無理して BMP に入ってない。普通に Exntend の方に入ってる。
JIS X 0213 と Unicode の包摂基準の違いから1対多対応の部分があって、ラウンドトリップを保証したかったら互換文字が必要になった。
そして必要な互換漢字は少数で、たまたまBMPのCJK 互換漢字漢字ブロックの後半がガラ空きだったので、そこにつっこまれた。
って話だったと思う。
JIS X 0213 と Unicode の包摂基準の違いから1対多対応の部分があって、ラウンドトリップを保証したかったら互換文字が必要になった。
そして必要な互換漢字は少数で、たまたまBMPのCJK 互換漢字漢字ブロックの後半がガラ空きだったので、そこにつっこまれた。
って話だったと思う。
363デフォルトの名無しさん
2018/06/04(月) 23:20:06.40ID:M5dk3jbS 規格がいってるのは CJK互換漢字ブロックはもともと複数の文字コードとのラウンドトリップ用なんだけど、
指定した一部の範囲は "JIS X 0213:2000" とのラウンドトリップ専用で、他の文字コードとのラウンドトリップにも使うべきではないということ。
指定した一部の範囲は "JIS X 0213:2000" とのラウンドトリップ専用で、他の文字コードとのラウンドトリップにも使うべきではないということ。
364デフォルトの名無しさん
2018/06/06(水) 14:26:39.66ID:R+kWiM6Z Announcing The Unicode Standard, Version 11.0
http://blog.unicode.org/2018/06/announcing-unicode-standard-version-110.html
http://blog.unicode.org/2018/06/announcing-unicode-standard-version-110.html
365デフォルトの名無しさん
2018/06/07(木) 22:48:02.08ID:YXHr2tyJ Unicode 11.0出たのか、つかもう一年経ったのか……。
> Five urgently needed CJK unified ideographs: three for newly standardized names of chemical elements, and two for Japan's government administration Moji Joho Kiban Project that includes ideographs for personal and place names
へー、これは知らなかった。
> Five urgently needed CJK unified ideographs: three for newly standardized names of chemical elements, and two for Japan's government administration Moji Joho Kiban Project that includes ideographs for personal and place names
へー、これは知らなかった。
366デフォルトの名無しさん
2018/06/07(木) 23:56:45.77ID:LqY2ZR0d 一昨年末に名称が正式決定したニホニウム等の元素を表す漢字がUROの末尾に追加になったんだな。
367デフォルトの名無しさん
2018/06/08(金) 00:10:00.49 そんなもんで漢字増やすなや!
368デフォルトの名無しさん
2018/06/08(金) 14:59:48.37ID:HNv18lZE 去年も書いたけど
Core Specification
Appendix D
Version History of the Standard
の漢字のとこの数字が足した数と合計で合わないんだよなぁ
48違うって何なんだろ。
Core Specification
Appendix D
Version History of the Standard
の漢字のとこの数字が足した数と合計で合わないんだよなぁ
48違うって何なんだろ。
369デフォルトの名無しさん
2018/06/08(金) 23:58:07.79ID:ljSzk/l3 CJK統合漢字のUROの空きコードポイントは残り16個か。次でとうとうU+9FF0番台になる。
それらも全部使い切ったらその次の少数の緊急に必要な漢字追加は拡張A末尾の空きU+40B6〜Fを使う事になるのかな。
でそこも使い切ったらBMPへの漢字追加は本当に終わりで拡張BやC、D…の末尾の空きを使用ってことになるんだろうな。
それらも全部使い切ったらその次の少数の緊急に必要な漢字追加は拡張A末尾の空きU+40B6〜Fを使う事になるのかな。
でそこも使い切ったらBMPへの漢字追加は本当に終わりで拡張BやC、D…の末尾の空きを使用ってことになるんだろうな。
370デフォルトの名無しさん
2018/06/09(土) 00:37:24.38ID:8sRiN6h8 文字列置換から除外するための一時退避の需要あるでしょ。
unicodeはプログラマが自由に使っていい領域ってどこだろう。
unicodeはプログラマが自由に使っていい領域ってどこだろう。
371デフォルトの名無しさん
2018/06/09(土) 01:02:14.54 「外字」でウィキれ
372デフォルトの名無しさん
2018/06/09(土) 09:13:51.52ID:8sRiN6h8373デフォルトの名無しさん
2018/06/09(土) 19:05:32.10ID:roRwdie6 curl 'http://www.unicode.org/Public/UCD/latest/ucd/UnicodeData.txt' | wc -l
とやると
32292
と返ってきたんだけど、つまり今現在Unicodeには32292文字が収録されていると思っていいのかな。
とやると
32292
と返ってきたんだけど、つまり今現在Unicodeには32292文字が収録されていると思っていいのかな。
374デフォルトの名無しさん
2018/06/10(日) 06:07:59.44ID:gv3HXRco 何?結局16バイトに収まってたという話?
375デフォルトの名無しさん
2018/06/10(日) 06:08:19.99ID:gv3HXRco ビットだ……恥ずかしい
376デフォルトの名無しさん
2018/06/10(日) 15:33:08.87ID:mkooDB8i377デフォルトの名無しさん
2018/06/10(日) 16:00:53.49ID:aEB47NCz Android P Beta 2、グリーンサラダの絵文字からゆで卵が消える | スラド デベロッパー
https://developers.srad.jp/story/18/06/09/0621201/
ゆで卵を入れる多様性は許されないのか
https://developers.srad.jp/story/18/06/09/0621201/
ゆで卵を入れる多様性は許されないのか
378デフォルトの名無しさん
2018/06/11(月) 13:52:38.76ID:HvQh9O78 ジェンダーの方もなんか過剰だよね。政治的な活動家でもいるのかね
サラダの絵文字からGoogle、「卵」を排除 生産者団体が異議、「卵を返せ」論争に
https://www.j-cast.com/2018/06/09330966.html?p=all
サラダの絵文字からGoogle、「卵」を排除 生産者団体が異議、「卵を返せ」論争に
https://www.j-cast.com/2018/06/09330966.html?p=all
379デフォルトの名無しさん
2018/06/11(月) 16:02:07.37ID:yunMmu3l なんか力抜けたわw
381デフォルトの名無しさん
2018/06/13(水) 00:45:51.71 どうなってんのこれ🤔
🌕🌔🌕🌕🌕🌕🌕🌕
🌕🌒🌕🌕🌕🌕🌕🌕
🌖🌓🌕🌕🌔🌕🌕🌕
🌖🌒🌕🌗🌑🌔🌕🌕
🌖🌑🌔🌘🌒🌕🌕🌕
🌕🌘🌑🌑🌑🌑🌒🌕
🌕🌕🌘🌑🌑🌑🌑🌒
🌕🌕🌖🌑🌑🌒🌗🌓
🌕🌕🌕🌘🌑🌑🌘🌔
🌕🌕🌖🌑🌑🌑🌘🌔
🌕🌕🌗🌑🌑🌑🌖🌔
🌕🌕🌕🌘🌑🌑🌕🌔
🌕🌕🌕🌗🌒🌘🌔🌕
🌕🌕🌕🌗🌒🌖🌒🌕
🌕🌕🌕🌗🌓🌕🌒🌕
🌕🌔🌕🌕🌕🌕🌕🌕
🌕🌒🌕🌕🌕🌕🌕🌕
🌖🌓🌕🌕🌔🌕🌕🌕
🌖🌒🌕🌗🌑🌔🌕🌕
🌖🌑🌔🌘🌒🌕🌕🌕
🌕🌘🌑🌑🌑🌑🌒🌕
🌕🌕🌘🌑🌑🌑🌑🌒
🌕🌕🌖🌑🌑🌒🌗🌓
🌕🌕🌕🌘🌑🌑🌘🌔
🌕🌕🌖🌑🌑🌑🌘🌔
🌕🌕🌗🌑🌑🌑🌖🌔
🌕🌕🌕🌘🌑🌑🌕🌔
🌕🌕🌕🌗🌒🌘🌔🌕
🌕🌕🌕🌗🌒🌖🌒🌕
🌕🌕🌕🌗🌓🌕🌒🌕
382デフォルトの名無しさん
2018/06/13(水) 00:55:38.87ID:ixGTG5kv 5ちゃんでemojiのAAは文字数制限が厳しいからどうしても小さくなりがちだな
383デフォルトの名無しさん
2018/06/13(水) 06:58:34.14ID:mbRQ9skB なにか問題でも?
🧙🧚🧛🧜🧝🧟
🧙🏻🧚🏻🧛🏻🧜🏻🧝🏻🧟🏻
🧙🏼🧚🏼🧛🏼🧜🏼🧝🏼🧟🏼
🧙🏽🧚🏽🧛🏽🧜🏽🧝🏽🧟🏽
🧙🏾🧚🏾🧛🏾🧜🏾🧝🏾🧟🏾
🧙🏿🧚🏿🧛🏿🧜🏿🧝🏿🧟🏿
🧙🧚🧛🧜🧝🧟
🧙🏻🧚🏻🧛🏻🧜🏻🧝🏻🧟🏻
🧙🏼🧚🏼🧛🏼🧜🏼🧝🏼🧟🏼
🧙🏽🧚🏽🧛🏽🧜🏽🧝🏽🧟🏽
🧙🏾🧚🏾🧛🏾🧜🏾🧝🏾🧟🏾
🧙🏿🧚🏿🧛🏿🧜🏿🧝🏿🧟🏿
384デフォルトの名無しさん
2018/06/17(日) 09:04:29.91ID:89kw/R7U ユニコードとUTF8は何が違うんでしょうか
どちらもユニコード?それとも別のコード?頭がおかしくなりそうです
SJISだけで全て丸く収まっていた平和な日本にとんだ黒船がやってきた・・・
どちらもユニコード?それとも別のコード?頭がおかしくなりそうです
SJISだけで全て丸く収まっていた平和な日本にとんだ黒船がやってきた・・・
385デフォルトの名無しさん
2018/06/17(日) 09:50:58.25ID:GftzeAnS アップル外字どうなの
386デフォルトの名無しさん
2018/06/17(日) 12:32:46.14ID:IMOrQ/Bc >>384
文字集合と文字符号の違いならわかる?
文字集合と文字符号の違いならわかる?
387デフォルトの名無しさん
2018/06/17(日) 12:38:22.96388デフォルトの名無しさん
2018/06/17(日) 12:51:10.01ID:usQhZnOB Shift_JISだって文字集合違ったりベンダ固有拡張あったりで
全然丸く収まってないよ殴り合いだよ
全然丸く収まってないよ殴り合いだよ
389デフォルトの名無しさん
2018/06/17(日) 13:31:33.71ID:wUKxAbyR MSのgithub買収でVSからclone出来ないリポジトリが増えて
SJIS消えてくれたらいいのに
っていうかwindowsの標準localeでUTF-8選びたいんだが
chcp65001はもういやバグだらけ
SJIS消えてくれたらいいのに
っていうかwindowsの標準localeでUTF-8選びたいんだが
chcp65001はもういやバグだらけ
390デフォルトの名無しさん
2018/06/17(日) 13:54:11.58ID:bLV6Ydf8 >>389
今のWindows10ではUTF-8選べるから人柱になってくれ
今のWindows10ではUTF-8選べるから人柱になってくれ
391デフォルトの名無しさん
2018/06/18(月) 01:32:33.22ID:44rsiuEs linux つかってる俺はUTF8統一で隙はなかった。
そういえばGO言語ってソースコードはUTF8で書けって仕様で規定されてるんだな。(変な文字変数名に使えてビビった)
そういえばGO言語ってソースコードはUTF8で書けって仕様で規定されてるんだな。(変な文字変数名に使えてビビった)
392デフォルトの名無しさん
2018/06/18(月) 15:52:30.27ID:54OwzSMe sjisはまだ許せる。utf16てめーはダメだ
内部コードに留めてメモリから外に出てこないでくれ
内部コードに留めてメモリから外に出てこないでくれ
393デフォルトの名無しさん
2018/06/18(月) 16:14:38.61ID:q6319o4n std::wstringがデフォルトでUTF-32になるLinux 64bit版のSTLにも同じこと言えんの?
394デフォルトの名無しさん
2018/06/18(月) 16:17:38.73ID:HrWV3yi6 SJISは完全に廃用でおk
395デフォルトの名無しさん
2018/06/18(月) 16:32:51.52ID:UtQrM811 ほんそれ
396デフォルトの名無しさん
2018/06/18(月) 17:04:46.60ID:EvkbZGBx char32_tのある今、wchar_tの存在価値なんて無いでしょ
環境依存する上にWindowsではUTF-16ということで1要素1文字の前提も崩れてるし
環境依存する上にWindowsではUTF-16ということで1要素1文字の前提も崩れてるし
397デフォルトの名無しさん
2018/06/18(月) 20:41:12.57ID:44rsiuEs 誰に賛成して、誰に反対しているかわからん。安価つけろ。
398デフォルトの名無しさん
2018/06/19(火) 07:29:13.13ID:DGMT9Nzy ?
399デフォルトの名無しさん
2018/06/19(火) 23:25:00.68ID:3zIXQUO/ A社やG社始めメジャーなクラウド系サービスは全部UTF-8だな
400デフォルトの名無しさん
2018/06/20(水) 01:39:40.00ID:xDrhFFX5 でも客にはSJIS対応を求められる不思議
401デフォルトの名無しさん
2018/06/20(水) 01:55:53.31ID:9U83APqd 意味がわからないよな
SJIS神話は何なのだろう
ジジイだけでなく中年や、中には学生にまであるよねww
学生なんて生まれたときからUTF-8の環境にいるはずで、
わざわざ使いにくい環境をどこで覚えてくるんだろうと怖くもあるww
SJIS神話は何なのだろう
ジジイだけでなく中年や、中には学生にまであるよねww
学生なんて生まれたときからUTF-8の環境にいるはずで、
わざわざ使いにくい環境をどこで覚えてくるんだろうと怖くもあるww
402デフォルトの名無しさん
2018/06/20(水) 02:06:06.18ID:xDrhFFX5 日本語が2バイトで済む安心感じゃないの?
あと、最近の根拠もなく他国をおとしめて喜んでいる類の人達には、
日本専用のコード体系かっけーさすが日本すげーとか思ってそう。
あと、最近の根拠もなく他国をおとしめて喜んでいる類の人達には、
日本専用のコード体系かっけーさすが日本すげーとか思ってそう。
403デフォルトの名無しさん
2018/06/20(水) 06:24:00.33ID:ZRnpXX67 >>402
日本のビジネスデータは全銀フォーマット等のような固定長が基本だから
文字のバイト数が可変のUTF8は向かないんだよね
うちのシステムでも、相手がUTF8で作ったテキストを送りつけてきて
大事故になったことがあった
日本のビジネスデータは全銀フォーマット等のような固定長が基本だから
文字のバイト数が可変のUTF8は向かないんだよね
うちのシステムでも、相手がUTF8で作ったテキストを送りつけてきて
大事故になったことがあった
404デフォルトの名無しさん
2018/06/20(水) 08:03:37.13ID:Va19lMsb 日本はまだマシで英語しか知らない欧米の連中だと「文字は1バイト」が常識だから
多言語化してても日本語を表示すると半分しか表示されないとかザラ。
最近はライブラリの整備や(通常全角幅の)絵文字の浸透のおかげで欧米の保守層にも文字コードの概念が伝わってるけどね。
多言語化してても日本語を表示すると半分しか表示されないとかザラ。
最近はライブラリの整備や(通常全角幅の)絵文字の浸透のおかげで欧米の保守層にも文字コードの概念が伝わってるけどね。
405デフォルトの名無しさん
2018/06/20(水) 08:52:51.05ID:OmEBDQrT 絵文字どころか10年以上前流行ったような古い日本の全角顔文字発掘してきて使ったりしてるよな最近
406デフォルトの名無しさん
2018/06/20(水) 15:17:43.40ID:OnxnZInx >>401
ほんそれ
ほんそれ
407デフォルトの名無しさん
2018/06/20(水) 15:19:01.43ID:OnxnZInx408デフォルトの名無しさん
2018/06/20(水) 17:02:56.44ID:AAtEE73s utf-8で何も考えずにソートしたら漢字の並びが非直感的になるから
しぶしぶsjis
しぶしぶsjis
409デフォルトの名無しさん
2018/06/20(水) 19:18:14.29ID:d5aRGVoI >>404
想像で言ってるだろ
想像で言ってるだろ
410デフォルトの名無しさん
2018/06/20(水) 19:25:53.85ID:/OAGNKMT このスレは、Windowsを実務PCとして使ってない人が愚痴をこぼすスレですか。
411デフォルトの名無しさん
2018/06/20(水) 19:50:25.18ID:FyXniq7l ほんそれ。
Windows使ってりゃSJIS要求するのは普通だし、そのWindowsはレガシーとしてSJISを捨てられないだけだし。
神話とか日本専用コードとかw
Windows使ってりゃSJIS要求するのは普通だし、そのWindowsはレガシーとしてSJISを捨てられないだけだし。
神話とか日本専用コードとかw
412デフォルトの名無しさん
2018/06/20(水) 20:58:05.50ID:Va19lMsb Windowsの文字コード周りで唯一好きなのは改行コードが\r\nである点。
他の環境ではLFだけという実際に即していないコードだから嫌。
LFなら普通は「桁位置はそのままで次の行に」でしょ……
abc\n
de
↑こうなるべき。
他の環境ではLFだけという実際に即していないコードだから嫌。
LFなら普通は「桁位置はそのままで次の行に」でしょ……
abc\n
de
↑こうなるべき。
413デフォルトの名無しさん
2018/06/20(水) 21:28:20.83ID:FyXniq7l Windowsは互換性のためしょうがない部分はあるが、そういうのは\e[でやってろって感じだな。
414デフォルトの名無しさん
2018/06/21(木) 01:11:25.06ID:M+oxnni+415デフォルトの名無しさん
2018/06/21(木) 01:29:39.14ID:9yZQgWTf ラインプリンター由来じゃなくてタイプライター由来じゃないの
キャリッジリターン
ラインフィード
キャリッジリターン
ラインフィード
416デフォルトの名無しさん
2018/06/21(木) 01:34:17.28ID:M+oxnni+417デフォルトの名無しさん
2018/06/21(木) 01:45:44.30ID:9yZQgWTf じゃあラインプリンターにもキャリッジあるの?
https://www.e-bridge.jp/eb/tcontents/yasasikunai-p/images/imageA001.jpg
https://www.e-bridge.jp/eb/tcontents/yasasikunai-p/images/imageA001.jpg
418デフォルトの名無しさん
2018/06/21(木) 02:17:29.23ID:vn+zRuHD ラインまるごと打つからラインプリンターなんだよねw
419デフォルトの名無しさん
2018/06/21(木) 09:07:52.61ID:y5k3a+mj MACみたいにCRだけっていうのは病気だけど
CR+LFが来たら常にCR無視しておけばいいし
自分で出力するときはLFだけ出力しておけばいい
それだけ
CR+LFが来たら常にCR無視しておけばいいし
自分で出力するときはLFだけ出力しておけばいい
それだけ
420デフォルトの名無しさん
2018/06/21(木) 09:41:35.70ID:CR9+5isI Why is the line terminator CR+LF?
https://blogs.msdn.microsoft.com/oldnewthing/20040318-00/?p=40193
If you go to the various internet protocol documents, such as RFC 0821 (SMTP), RFC 1939 (POP), RFC 2060 (IMAP), or RFC 2616 (HTTP),
you'll see that they all specify CR+LF as the line termination sequence.
So the the real question is not "Why do CP/M, MS-DOS, and Win32 use CR+LF as the line terminator?"
but rather "Why did other people choose to differ from these standards documents and use some other line terminator?"
https://blogs.msdn.microsoft.com/oldnewthing/20040318-00/?p=40193
If you go to the various internet protocol documents, such as RFC 0821 (SMTP), RFC 1939 (POP), RFC 2060 (IMAP), or RFC 2616 (HTTP),
you'll see that they all specify CR+LF as the line termination sequence.
So the the real question is not "Why do CP/M, MS-DOS, and Win32 use CR+LF as the line terminator?"
but rather "Why did other people choose to differ from these standards documents and use some other line terminator?"
421デフォルトの名無しさん
2018/06/22(金) 13:23:16.23ID:zvOmzJZB そのブログは CR + LF を正当化してるけど、テキストファイルの改行は
単に行のデリミタであって、カーソルの移動を意味してるわけじゃないと思うんだよね
単に行のデリミタであって、カーソルの移動を意味してるわけじゃないと思うんだよね
422デフォルトの名無しさん
2018/06/22(金) 15:59:28.46ID:MYEvMa8B International Business Machines
423デフォルトの名無しさん
2018/06/22(金) 21:46:22.33ID:Lyh+6zOM HAL 9000
"I'm sorry, Dave, I'm afraid I can't do that."
"I'm sorry, Dave, I'm afraid I can't do that."
424デフォルトの名無しさん
2018/06/26(火) 16:07:00.46ID:Jp9iFqVj >>421
だよな。テレタイプじゃないんだから10か13をLE(Line End)にすればいいんだ
だよな。テレタイプじゃないんだから10か13をLE(Line End)にすればいいんだ
425デフォルトの名無しさん
2018/06/26(火) 22:23:33.42ID:PAZ2qH9Y 一方でEBCDICはCRやLFとは別にNLを定義した。
426デフォルトの名無しさん
2018/06/27(水) 00:01:18.11ID:4lF2I/sY コレが正解
https://i.stack.imgur.com/e4xm6.jpg
つまり
carriage returnは行頭に復帰
line feedは行送り
CRだけなら何度も同じ行が上書きされる(行送りされない)
LFだけなら例えば3行だとこうなる
XXXXXXXX
XXXXXXXX
XXXXXXXX
https://i.stack.imgur.com/e4xm6.jpg
つまり
carriage returnは行頭に復帰
line feedは行送り
CRだけなら何度も同じ行が上書きされる(行送りされない)
LFだけなら例えば3行だとこうなる
XXXXXXXX
XXXXXXXX
XXXXXXXX
427デフォルトの名無しさん
2018/06/27(水) 00:23:59.29ID:Xb4utxw7 ⮠じゃなくて⮦
428デフォルトの名無しさん
2018/06/27(水) 00:37:35.67ID:BTQKl7xc429デフォルトの名無しさん
2018/06/27(水) 00:53:00.34ID:4lF2I/sY そんなこといいだしたら
デリミタなんかなんでもいいことになる
ただの文字コードの羅列だからな
CRである必要もないしLFである必要もない
そもそもキミラはアホなこといってるワケ
項目のデリミタにカンマつかったり水平タブ使ったりする
行のデリミタだってなんでもいい
バカはホント困るわぁ
デリミタなんかなんでもいいことになる
ただの文字コードの羅列だからな
CRである必要もないしLFである必要もない
そもそもキミラはアホなこといってるワケ
項目のデリミタにカンマつかったり水平タブ使ったりする
行のデリミタだってなんでもいい
バカはホント困るわぁ
430デフォルトの名無しさん
2018/06/27(水) 02:30:43.48ID:ulOW8GiO >>429
だから決めだけの問題だから何でもいい。
ASCIIという文字コードの規約の問題。
実際にEBCDICは CR でも LF でもない制御コードを別途改行コードとして用意した。
ASCII については規格の策定時から LF を押す国際派(ISO)と CR+LF を押す国内派(ANS)が対立していて一意に決まってない。
だから決めだけの問題だから何でもいい。
ASCIIという文字コードの規約の問題。
実際にEBCDICは CR でも LF でもない制御コードを別途改行コードとして用意した。
ASCII については規格の策定時から LF を押す国際派(ISO)と CR+LF を押す国内派(ANS)が対立していて一意に決まってない。
431デフォルトの名無しさん
2018/06/27(水) 09:37:29.05ID:5XsMHgY7 もともとテレタイプ前提の文字コードだからなあ
432デフォルトの名無しさん
2018/06/27(水) 15:41:13.36ID:2dfKv2YD 文字の話しろ
433デフォルトの名無しさん
2018/06/27(水) 15:48:44.41ID:EKUkk/oX いや文字コードの話するスレだろ
434デフォルトの名無しさん
2018/06/27(水) 18:10:34.52ID:rSBeNI25 CR/LFは文字じゃないのか……(驚愕)
435デフォルトの名無しさん
2018/06/27(水) 21:08:46.77ID:ulOW8GiO 制御コードであって文字ではないな。
少なくともASCIIとUnicodeでは。
少なくともASCIIとUnicodeでは。
436デフォルトの名無しさん
2018/06/27(水) 22:13:49.89ID:5OUSIXAr 制御文字のコードです
437デフォルトの名無しさん
2018/06/27(水) 22:58:53.48ID:+kEwaWuV >>420
その後に書いてある「I'm told that the ASCII committee changed the name of character 0x0A to "newline" around 1996, so the confusion level has been raised even higher.」
ってどういうことなんだろう?
ASCII委員会が1996年頃に0x0Aの名前をnewlineに変更して混乱が深まった?
ASCIIって1986年が最終改訂じゃないの?
その後に書いてある「I'm told that the ASCII committee changed the name of character 0x0A to "newline" around 1996, so the confusion level has been raised even higher.」
ってどういうことなんだろう?
ASCII委員会が1996年頃に0x0Aの名前をnewlineに変更して混乱が深まった?
ASCIIって1986年が最終改訂じゃないの?
438デフォルトの名無しさん
2018/06/28(木) 09:21:41.88ID:iSaREpik コンピュータの出力装置がゴルフボールの電動タイプライターだった時代、
例えば「アンダーライン入りの文字」を打つ時は、普通に文字を打って、
「ラインフィードの無いキャリッジリターン」をやって、
アンダーラインだけを打っていたのだと思う。
すると、キャリッジリターンには、ラインフィードが付く場合と付かない
場合があり、両者は明確に区別できなければならないはず。
ASCIIコードが制定された時代から考えると、改行コードが「CR/LF」
になったのは、そうゆう趣旨かな?と思う。
例えば「アンダーライン入りの文字」を打つ時は、普通に文字を打って、
「ラインフィードの無いキャリッジリターン」をやって、
アンダーラインだけを打っていたのだと思う。
すると、キャリッジリターンには、ラインフィードが付く場合と付かない
場合があり、両者は明確に区別できなければならないはず。
ASCIIコードが制定された時代から考えると、改行コードが「CR/LF」
になったのは、そうゆう趣旨かな?と思う。
439デフォルトの名無しさん
2018/06/28(木) 09:47:22.60ID:/fqEtI/z >>438
キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは?
バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ
キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは?
バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ
440デフォルトの名無しさん
2018/06/28(木) 11:06:58.11ID:5Es+lqIV BOMとかUTF-8Nってなんですか?
441デフォルトの名無しさん
2018/06/28(木) 12:37:34.87ID:iSaREpik >>439
なるほど。ありがとう。
なるほど。ありがとう。
442デフォルトの名無しさん
2018/06/28(木) 12:46:09.81ID:4/XCwkvc unicodeになって重ね打ち的な概念復活してきてね?
443デフォルトの名無しさん
2018/06/28(木) 15:12:27.72ID:LwHbkD+y >>439
重ね打ちをしたくないところはスペースを使えばいい
>コンピュータの出力装置がゴルフボールの電動タイプライターだった時代
スペースは何も印字せずに印字位置を一文字分進めるのであって
その位置の文字を空白で置き換えたり
その位置に空白を挿入するのではなかったのだから
昔読んだ本に、重ね打ちのためにバックスペースを使っている文書を
バックスペースを使えないプリンターでも重ね打ちできるように
変換するプログラムが載っていた
詳細は忘れたけど、CRとスペースを使うのだったと思う
>>438
それだと行頭に戻る機能だけをCRとして用意する理由にはなっても
行頭に戻る機能をLFに持たせない理由にはならないのではないか?
行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
重ね打ちをしたくないところはスペースを使えばいい
>コンピュータの出力装置がゴルフボールの電動タイプライターだった時代
スペースは何も印字せずに印字位置を一文字分進めるのであって
その位置の文字を空白で置き換えたり
その位置に空白を挿入するのではなかったのだから
昔読んだ本に、重ね打ちのためにバックスペースを使っている文書を
バックスペースを使えないプリンターでも重ね打ちできるように
変換するプログラムが載っていた
詳細は忘れたけど、CRとスペースを使うのだったと思う
>>438
それだと行頭に戻る機能だけをCRとして用意する理由にはなっても
行頭に戻る機能をLFに持たせない理由にはならないのではないか?
行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
444デフォルトの名無しさん
2018/06/28(木) 16:20:32.60ID:FdbC2U6h escシーケンスでも改行せずに行頭に戻したり出来たからな
445デフォルトの名無しさん
2018/06/28(木) 16:21:52.50ID:FdbC2U6h >当時は意味があったのかも知れないけど
紙の排出に使われてたぞ
紙の排出に使われてたぞ
446デフォルトの名無しさん
2018/06/28(木) 18:55:39.46ID:wMlREDKw447デフォルトの名無しさん
2018/06/28(木) 23:48:15.68ID:d1dmwFto UTF-8Nというのは
だれかがテキトーにつけたUnicodeのエンコードの名前
先に結論をいうとUTF-8NはBOMついてないUTF-8ということらしいからな
さらいえばUTF-8にBOMつける意味はほとんどない
とりあえず概要だけ書いといてやろう
BOMというのは、符号単位のオクテットの並びが
リトルエディアンかビッグエンディアンか識別するためにファイルの先頭にマークされる
ちなみにそれぞれのエンコードの符号単位はこんな感じなる
UTF-8:1つのオクテット
UTF-16:2つのオクテット
UTF-32:4つのオクテット
つまり、UTF-8ではそんなマークつけても意味がない
オクテットが1つしかないからな、並びなんか関係ない
2つ以上の場合、オクテットの順序がリトルエディアンかビッグエンディアンかで
数値の表現のされかたが変わる
CISC系のチップだと数値の表現はリトルエンディアンが多い
RISC系のチップだと数値の表現はビッグエンディアンが多い
つまり、CISC系のチップでリトルエディアンで保存されたファイルなら
エンディアンを気にせずにファイルに保存された数値をそのまま読むことができる
しかしビッグエンディアンなら一旦オクテットの並びを逆転させてから
数値を読みとる必要がある
RISC系のチップならその逆になる
分かった?
だれかがテキトーにつけたUnicodeのエンコードの名前
先に結論をいうとUTF-8NはBOMついてないUTF-8ということらしいからな
さらいえばUTF-8にBOMつける意味はほとんどない
とりあえず概要だけ書いといてやろう
BOMというのは、符号単位のオクテットの並びが
リトルエディアンかビッグエンディアンか識別するためにファイルの先頭にマークされる
ちなみにそれぞれのエンコードの符号単位はこんな感じなる
UTF-8:1つのオクテット
UTF-16:2つのオクテット
UTF-32:4つのオクテット
つまり、UTF-8ではそんなマークつけても意味がない
オクテットが1つしかないからな、並びなんか関係ない
2つ以上の場合、オクテットの順序がリトルエディアンかビッグエンディアンかで
数値の表現のされかたが変わる
CISC系のチップだと数値の表現はリトルエンディアンが多い
RISC系のチップだと数値の表現はビッグエンディアンが多い
つまり、CISC系のチップでリトルエディアンで保存されたファイルなら
エンディアンを気にせずにファイルに保存された数値をそのまま読むことができる
しかしビッグエンディアンなら一旦オクテットの並びを逆転させてから
数値を読みとる必要がある
RISC系のチップならその逆になる
分かった?
448デフォルトの名無しさん
2018/06/29(金) 03:04:36.82ID:8Q0GtZXS わかんない。
なんで他のシステムで読む可能性のあるファイルなのに
フォーマットを決めないの?
なんで他のシステムで読む可能性のあるファイルなのに
フォーマットを決めないの?
449デフォルトの名無しさん
2018/06/29(金) 09:04:53.35ID:iuHQPsKC >>443
> 行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
例えば、ゴルフボールで次のようにタイプすることを考えてみる。(□はスペース)
□□□□□□□AA
□□□□□□□AA
□□□□□□□AA「CRの無いLF」「BS」「BS」AA
と打つと、行頭に戻すよりも速く打てると思うが。
> 行頭に戻さずに行だけ変えることに当時は意味があったのかも知れないけど思いつかない
例えば、ゴルフボールで次のようにタイプすることを考えてみる。(□はスペース)
□□□□□□□AA
□□□□□□□AA
□□□□□□□AA「CRの無いLF」「BS」「BS」AA
と打つと、行頭に戻すよりも速く打てると思うが。
450デフォルトの名無しさん
2018/06/29(金) 09:11:34.75ID:pXG1OaDl CISC RISC って今は無意味だしエンディアンとは関係ない
関係あると思うのは知ってるCPUが少ないだけかと
あと上で重ね打ちが昔の話みたいに言ってるけど
man使ったことないの?
端末によるけどたいていアンダーラインがつくよ
関係あると思うのは知ってるCPUが少ないだけかと
あと上で重ね打ちが昔の話みたいに言ってるけど
man使ったことないの?
端末によるけどたいていアンダーラインがつくよ
451デフォルトの名無しさん
2018/06/29(金) 09:17:15.33ID:pXG1OaDl452デフォルトの名無しさん
2018/06/29(金) 11:08:54.85ID:95WXFXv0 BOMの有無でCSVをexcelに読ませる際に文字化けするんだよね
453デフォルトの名無しさん
2018/06/29(金) 11:50:23.53ID:Uc21CWyX そういう仕様だったから、ってのは何の考察にもなってない。
人類が争いをやめないのはそういう仕様になってるから。
人類が争いをやめないのはそういう仕様になってるから。
454デフォルトの名無しさん
2018/06/29(金) 15:14:45.43ID:C6H9lGIq >>450
>(manでは)端末によるけどたいていアンダーラインがつくよ
manでアンダーラインがつかないと言っている人はいないし、昔は
>バックスペースで1文字分戻ってアンダーラインを打ったり
>文字を二度打ちして太字にしたりしてた
というのとは別の話だろ
>(manでは)端末によるけどたいていアンダーラインがつくよ
manでアンダーラインがつかないと言っている人はいないし、昔は
>バックスペースで1文字分戻ってアンダーラインを打ったり
>文字を二度打ちして太字にしたりしてた
というのとは別の話だろ
455デフォルトの名無しさん
2018/06/29(金) 15:35:26.60ID:C6H9lGIq456デフォルトの名無しさん
2018/06/29(金) 16:16:27.86ID:kXqQNYVA457デフォルトの名無しさん
2018/06/29(金) 22:19:47.60ID:jsqIPRMd ちょっと関係ないがGoogle翻訳では改行は%0Aだね。
HTTP関連の改行コードはCRLFが多いと思うんだけど,珍しい。
HTTP関連の改行コードはCRLFが多いと思うんだけど,珍しい。
458デフォルトの名無しさん
2018/06/29(金) 22:36:32.85ID:8Q0GtZXS そこはhttp関係ないじゃん
459デフォルトの名無しさん
2018/06/29(金) 23:08:44.45ID:sSTEuPuw むしろフォーマットがきまってる
リトルエンディアンの形式でもいいし
ビッグエンディアンの形式でもいいというフォーマットだからな
構成システムがリトルエンディアンの計算機が多い場合、リトルエンディアンで扱う方が有利
当然、構成システムがビッグエンディアンの計算機が多い場合、ビッグエンディアンで扱う方が有利になる
後処理の計算機のリソース消費量を減らすために先にいちいち毎回エンディアン変換するのもムダだしな
ちなみにネットワークのプロトコルの標準では歴史的な事情があって
ほぼ暗黙でビッグエンディアンになってる
ドキュメントにエンディアンが記載されてなければ
ビッグエンディアンとみなしてほぼ問題ない
リトルエンディアンの形式でもいいし
ビッグエンディアンの形式でもいいというフォーマットだからな
構成システムがリトルエンディアンの計算機が多い場合、リトルエンディアンで扱う方が有利
当然、構成システムがビッグエンディアンの計算機が多い場合、ビッグエンディアンで扱う方が有利になる
後処理の計算機のリソース消費量を減らすために先にいちいち毎回エンディアン変換するのもムダだしな
ちなみにネットワークのプロトコルの標準では歴史的な事情があって
ほぼ暗黙でビッグエンディアンになってる
ドキュメントにエンディアンが記載されてなければ
ビッグエンディアンとみなしてほぼ問題ない
460デフォルトの名無しさん
2018/06/29(金) 23:10:02.53ID:sSTEuPuw ちなみにキミラみたいな貧乏人が使ってるPCは
ほとんどリトルエンディアンになる
ほとんどリトルエンディアンになる
461デフォルトの名無しさん
2018/06/30(土) 00:16:14.33ID:I+9paw5R やっぱり今時半角カタカナ使う人にはアレな人が多いのか
462デフォルトの名無しさん
2018/06/30(土) 01:04:57.77ID:2NGdD93t463デフォルトの名無しさん
2018/06/30(土) 03:46:45.67ID:O2H7A6pY464デフォルトの名無しさん
2018/06/30(土) 04:38:43.11ID:8S9cJyih やっぱりユニコードが諸悪の根源
あれが入って来てからコンピュータが扱いづらくなった
日本はSJISに統一しよう
あれが入って来てからコンピュータが扱いづらくなった
日本はSJISに統一しよう
465デフォルトの名無しさん
2018/06/30(土) 06:04:05.89ID:tYfB6W3t Unicode程度でコンピューターを扱いずらくなる脳味噌って……同情するわ。
466デフォルトの名無しさん
2018/06/30(土) 13:06:02.67ID:QAvD/WKt エンディアン関係ないUTF-8が一番良いな
467デフォルトの名無しさん
2018/06/30(土) 13:32:27.92ID:cCXC0XvW UTF-8 はバイト列を見て文字がわかりにくいのが難点
468デフォルトの名無しさん
2018/06/30(土) 13:49:23.03ID:O2H7A6pY >>467
なんで?
なんで?
>>464
最初から 32 ビットにしなかったのが問題でしたね
最初から 32 ビットにしなかったのが問題でしたね
470デフォルトの名無しさん
2018/06/30(土) 18:58:11.39ID:cCXC0XvW >>468
うーん、いやあ、あらためて考えると単に分かりづらいと思い込んでる
だけだったかも。JISX0208 の文字って3バイトになるでしょ。
あの 3バイトずつになるのがどうも慣れないだけだった。467 は撤回するよ
うーん、いやあ、あらためて考えると単に分かりづらいと思い込んでる
だけだったかも。JISX0208 の文字って3バイトになるでしょ。
あの 3バイトずつになるのがどうも慣れないだけだった。467 は撤回するよ
471デフォルトの名無しさん
2018/06/30(土) 20:27:41.69ID:ozTCpxdq BOMでエンディアンが規定できるからな
そのようにフォーマットできまってる
数値の読みとりかたも一意に定まる
どっちでもいいというワケではない
バカはホント困るわぁ
つまり
リトルエンディアンで2つ以上のオクテットがあるのに
先頭にBOM入れないヤツはゴミクズといえる
Javaのバイトコードに CAFE BABE が入ってないぐらいお話にならない
ビッグエンディアンならBOMなくてもオレはよいとしようと考える
そのようにフォーマットできまってる
数値の読みとりかたも一意に定まる
どっちでもいいというワケではない
バカはホント困るわぁ
つまり
リトルエンディアンで2つ以上のオクテットがあるのに
先頭にBOM入れないヤツはゴミクズといえる
Javaのバイトコードに CAFE BABE が入ってないぐらいお話にならない
ビッグエンディアンならBOMなくてもオレはよいとしようと考える
472デフォルトの名無しさん
2018/06/30(土) 22:43:16.16ID:2NGdD93t 半角カタカナは目に入ってこないなw
473デフォルトの名無しさん
2018/06/30(土) 23:05:58.78ID:8S9cJyih 恐ろしいのは、PCを使う一般人はユニコードとかBOMとか全く知らないこと
IT技術とIT利用者のレベルのギャップがいつかデカい事件を起こすだろう
PC社会は薄氷の上を歩くような危うさの中に成り立っている
IT技術とIT利用者のレベルのギャップがいつかデカい事件を起こすだろう
PC社会は薄氷の上を歩くような危うさの中に成り立っている
474デフォルトの名無しさん
2018/06/30(土) 23:20:50.17ID:0vzJToCT 未だに半角とか全角を使用者に意識させるのが残念でならない
カタカナなんて文字としては一種類なんだから機械的に変換してしまうのが当たり前になって良さそうなのに
カタカナなんて文字としては一種類なんだから機械的に変換してしまうのが当たり前になって良さそうなのに
475デフォルトの名無しさん
2018/07/01(日) 15:37:44.32ID:ep584YMH 2ちゃんがSJISオンリーってのがそもそもはよなおせ
476デフォルトの名無しさん
2018/07/01(日) 15:50:52.13ID:3SrV2o5x sjisオンリー❓🤔
477デフォルトの名無しさん
2018/07/01(日) 16:00:26.27ID:omYv90Gk478デフォルトの名無しさん
2018/07/01(日) 18:18:14.73ID:EnuoS7Gy Unicodeのクソなところは、既存のコード体系を無視してるところだよな。
まさに欧米人のやり口そのもの。
まさに欧米人のやり口そのもの。
479デフォルトの名無しさん
2018/07/02(月) 03:00:52.60ID:EL6wSxah たとえば?
480デフォルトの名無しさん
2018/07/02(月) 08:27:03.72ID:FZsTYqY7 Shift-JISが発音区別符号のついたラテン文字などをサポートしていればよかったのに。
481デフォルトの名無しさん
2018/07/03(火) 09:01:30.75ID:IDUMbXdY482デフォルトの名無しさん
2018/07/03(火) 14:32:34.20ID:R6pmKHtn483デフォルトの名無しさん
2018/07/03(火) 14:34:40.85ID:gQF2QJmD SJISは廃用で
484デフォルトの名無しさん
2018/07/03(火) 14:55:13.29ID:pQbF/VH/ はいよっ!
485デフォルトの名無しさん
2018/07/04(水) 03:13:37.83ID:FxllvN6o >>482
ビット立てながら先頭から見ればいいだけじゃん?
ビット立てながら先頭から見ればいいだけじゃん?
486デフォルトの名無しさん
2018/07/04(水) 17:14:03.55ID:LFQ4ypq9 うーん
487デフォルトの名無しさん
2018/07/04(水) 21:57:50.06ID:gFgZc5FG KZD
488デフォルトの名無しさん
2018/07/04(水) 23:49:15.94ID:s7W39adb 昔、Unicodeもない時代に全文検索エンジン作ったことがあるが
インデックス作るのにもマッチング用に符号圧縮したデータ作るのにも
設計がめんどいわ処理時間がかかるわだろうから
Shift_JISデータから16bitのデータに一旦変換してからそういったデータを作成するようにしてたわ
要件が検索漏れゼロ、ノイズゼロ、なおかつメディアは超トロイCD-ROMという
ありえない滅茶苦茶な内容だったからな
インデクサは大富豪な設計でないとやってられなかった
インデックス作成にリアルタイム性が要求されなかったからまだ救いがあったともいえる
その全文検索エンジンはインデックスを大きくすればするほどインデックスが大きくなるかわりに
最悪のケースの速度が速くなるという仕様にした(最低限必要な性能の要求水準に応えるため)
インデックスを大きくするということはインデックスを作るのに当然時間がかかるということになる
いまはそれもとてつもなくデータが増えてDVDになってる
インデックスもものすごい大きくなってる
で、その最悪のケースというのは、
符号圧縮されたデータをマッチングする回数が増えることを意味する
マッチングの条件はマッチングキーワードから生成するインデックスに含まれる符号圧縮された符号の組み合わせになる
そのマッチングアルゴリズムにBMHを使うことになる
インデックス作るのにもマッチング用に符号圧縮したデータ作るのにも
設計がめんどいわ処理時間がかかるわだろうから
Shift_JISデータから16bitのデータに一旦変換してからそういったデータを作成するようにしてたわ
要件が検索漏れゼロ、ノイズゼロ、なおかつメディアは超トロイCD-ROMという
ありえない滅茶苦茶な内容だったからな
インデクサは大富豪な設計でないとやってられなかった
インデックス作成にリアルタイム性が要求されなかったからまだ救いがあったともいえる
その全文検索エンジンはインデックスを大きくすればするほどインデックスが大きくなるかわりに
最悪のケースの速度が速くなるという仕様にした(最低限必要な性能の要求水準に応えるため)
インデックスを大きくするということはインデックスを作るのに当然時間がかかるということになる
いまはそれもとてつもなくデータが増えてDVDになってる
インデックスもものすごい大きくなってる
で、その最悪のケースというのは、
符号圧縮されたデータをマッチングする回数が増えることを意味する
マッチングの条件はマッチングキーワードから生成するインデックスに含まれる符号圧縮された符号の組み合わせになる
そのマッチングアルゴリズムにBMHを使うことになる
489デフォルトの名無しさん
2018/07/04(水) 23:50:33.59ID:s7W39adb で、このBMHというのは文字列マッチングで非常に有効なアルゴリズムといえる
しかしShift_JISでは使えない
ユニコードならそのまんま使える
順方向からの文字列マッチングですらShift_JISでは
こういった高速なマッチングアルゴリズムが使えない
いかにShift_JISがウンコかよくわかる典型的な例といっていい
しかしShift_JISでは使えない
ユニコードならそのまんま使える
順方向からの文字列マッチングですらShift_JISでは
こういった高速なマッチングアルゴリズムが使えない
いかにShift_JISがウンコかよくわかる典型的な例といっていい
490デフォルトの名無しさん
2018/07/05(木) 01:32:31.02ID:Iw1yLrzA491デフォルトの名無しさん
2018/07/05(木) 01:51:36.04ID:T0L/NWDK ただし抜けやすくなる
492デフォルトの名無しさん
2018/07/05(木) 02:11:26.21ID:8UhFPcQc 半角カタカナを多用されるとCOBOLで作ったんじゃないかと思っちゃうね
493デフォルトの名無しさん
2018/07/05(木) 02:30:50.16ID:HIyPet1B 大発見じゃん
494デフォルトの名無しさん
2018/07/05(木) 18:37:34.34ID:0T2GdzcY 半角カナもそうだけど、全角英数も大概だよなぁ
経緯的なもんだろうけど、
未だに『住所はすべて全角で』みたいなWebフォーム有ったりするし
経緯的なもんだろうけど、
未だに『住所はすべて全角で』みたいなWebフォーム有ったりするし
495デフォルトの名無しさん
2018/07/05(木) 19:38:22.34ID:CqUNBSEq Unicodeって日本を優遇しすぎてない? そう思うのは日本人の奢りなのかな。
例えば上で挙げられてる絵文字や全角英数、半角片仮名だって日本由来だし、
「CJK互換文字」と謳いつつ、キロメートルを一文字幅に短縮したやつとかも全部日本のJISコードとの互換性を保つために導入されてる訳じゃん。
そういうのってどうなのかなぁ。
自分は嬉しい(過去の、Shift-JISでエンコードされた文書が情報の欠損なく読めるから)んだけどね、もちろん。
例えば上で挙げられてる絵文字や全角英数、半角片仮名だって日本由来だし、
「CJK互換文字」と謳いつつ、キロメートルを一文字幅に短縮したやつとかも全部日本のJISコードとの互換性を保つために導入されてる訳じゃん。
そういうのってどうなのかなぁ。
自分は嬉しい(過去の、Shift-JISでエンコードされた文書が情報の欠損なく読めるから)んだけどね、もちろん。
496デフォルトの名無しさん
2018/07/05(木) 20:37:53.33ID:cHUpj8OH >>495
線文字Aとか楔形文字拡張とか見ても同じこと言えるか?
線文字Aとか楔形文字拡張とか見ても同じこと言えるか?
497デフォルトの名無しさん
2018/07/05(木) 21:16:32.44ID:CqUNBSEq >>496
でもあれは互換性もクソもないじゃん
でもあれは互換性もクソもないじゃん
498デフォルトの名無しさん
2018/07/05(木) 22:49:22.73ID:cHUpj8OH 誰にも読めない、使えない、未解読の古代文字とか登録してるくらいだから、現代でも使用可能な文字なら余裕って話だ。
499デフォルトの名無しさん
2018/07/05(木) 23:18:38.72ID:0kDXGIdf だめか
𒀑
𒄦
くさび
𒀑
𒄦
くさび
500デフォルトの名無しさん
2018/07/06(金) 07:29:45.69ID:3U2Ta28u ~(元号を一文字化したもの)とかあるからな
申請すれば何でも通るんじゃねーの
申請すれば何でも通るんじゃねーの
501デフォルトの名無しさん
2018/07/06(金) 08:24:58.10ID:QJllJwz8 申請する権利のある人ならな。
大手OSメーカー、国家規格代表、ごく一部の文字専門家。
大手OSメーカー、国家規格代表、ごく一部の文字専門家。
502デフォルトの名無しさん
2018/07/06(金) 08:47:24.31ID:IGjSb2yt 潤A~などは、昔の(日本の)文字コードとの互換性を取るために
残しているだけ。だから、次の元号の合わせ文字は通らない。
残しているだけ。だから、次の元号の合わせ文字は通らない。
503デフォルトの名無しさん
2018/07/06(金) 10:05:30.92ID:odzQpd8G 文部の沙汰も金私大
504デフォルトの名無しさん
2018/07/06(金) 19:02:02.70ID:3U2Ta28u >>502
もうコードの場所を確保してあるってMSの元号対応ブログで言ってたよ
もうコードの場所を確保してあるってMSの元号対応ブログで言ってたよ
505デフォルトの名無しさん
2018/07/06(金) 22:30:52.61ID:p79Hvr/2506デフォルトの名無しさん
2018/07/07(土) 01:28:54.42ID:kLxolQc6 空いてるとこにテキトーにいれてるだけやん
文字コードが連続してないし
ひどいマッピングされてるわ
文字コードが連続してないし
ひどいマッピングされてるわ
507デフォルトの名無しさん
2018/07/07(土) 10:47:15.09ID:OQyJYPpl 元号は、これからもどんどん増えてゆくんだから、Unicodeに
「日本元号面」を作って、そこに入れるようにしてほしい。
「日本元号面」を作って、そこに入れるようにしてほしい。
508デフォルトの名無しさん
2018/07/07(土) 11:50:18.74ID:kLxolQc6 ちなみに先に書いた全文検索エンジンでは
アイウエオもアイウエオも
ガギグゲゴもガギグゲゴも
12345も12345も
abcdeもabcdeも
同じ文字コードとして扱ってる
つまりどっちでキーワード書いても当たる
見た目(つまりグリフ)が違うだけで同じだからな
しかし明治大正昭和平成を合紫順~までは
やってない
すでにいろんなもんでその全文検索エンジンは使われてるが
コレで文句がきたことはない
つまりだれも気にしてない
アイウエオもアイウエオも
ガギグゲゴもガギグゲゴも
12345も12345も
abcdeもabcdeも
同じ文字コードとして扱ってる
つまりどっちでキーワード書いても当たる
見た目(つまりグリフ)が違うだけで同じだからな
しかし明治大正昭和平成を合紫順~までは
やってない
すでにいろんなもんでその全文検索エンジンは使われてるが
コレで文句がきたことはない
つまりだれも気にしてない
509デフォルトの名無しさん
2018/07/07(土) 13:23:15.59ID:WVErtcKw カ゚キ゚ク゚ケ゚コ゚はどうなるんだ
510デフォルトの名無しさん
2018/07/07(土) 13:49:40.16ID:kLxolQc6 こんな感じの内容からインデックスやマッチング用のデータが作成される
ガギグゲゴ ガギグゲゴ ⇒ カ゛キ゛ク゛ケ゛コ゛
カ゚キ゚ク゚ケ゚コ゚ ⇒ カ゜キ゜ク゜ケ゜コ゜
つまりインデックスやマッチング用のデータを作る前に前処理で一気に痴漢することになる
で、キーワードをガギグゲゴやガギギゲゴやカ゛キ゛ク゛ケ゛コ゛にすると
カ゛キ゛ク゛ケ゛コ゛で検索することになる
つまりこの全文検索エンジンは濁音も半濁音も検索できる超優れものといえるのだ
ガギグゲゴ ガギグゲゴ ⇒ カ゛キ゛ク゛ケ゛コ゛
カ゚キ゚ク゚ケ゚コ゚ ⇒ カ゜キ゜ク゜ケ゜コ゜
つまりインデックスやマッチング用のデータを作る前に前処理で一気に痴漢することになる
で、キーワードをガギグゲゴやガギギゲゴやカ゛キ゛ク゛ケ゛コ゛にすると
カ゛キ゛ク゛ケ゛コ゛で検索することになる
つまりこの全文検索エンジンは濁音も半濁音も検索できる超優れものといえるのだ
511デフォルトの名無しさん
2018/07/07(土) 14:06:53.21ID:IMiijYtR 痴漢アカン
512デフォルトの名無しさん
2018/07/07(土) 14:25:13.00ID:WVErtcKw 俺はそういうのを考えるのが面倒だからUNICODE正規化だけしてる
おかげで平成と~もちゃんと検索でヒットする
おかげで平成と~もちゃんと検索でヒットする
513デフォルトの名無しさん
2018/07/07(土) 15:16:01.20ID:kLxolQc6 ちなみに客ごとに置換辞書を作ってる
客ごとに要望が違うからな
客によってはいろんな要望をいってくる客もいる
その要望に応えるのも仕事だからな
で、そのなかに合紫順~を置換した例はない
全角にマッピングされてるasciiや半角カナの部分は
コレについてほぼ間違いなくみな同じ結論になる
それ以外で異なる特殊な部分は結構ある
文字コードでシノニムの部分もあれば、それ以外でシノニムにしたい部分もあったりする
それは客の業務に依存する部分になるからな
客ごとに要望が違うからな
客によってはいろんな要望をいってくる客もいる
その要望に応えるのも仕事だからな
で、そのなかに合紫順~を置換した例はない
全角にマッピングされてるasciiや半角カナの部分は
コレについてほぼ間違いなくみな同じ結論になる
それ以外で異なる特殊な部分は結構ある
文字コードでシノニムの部分もあれば、それ以外でシノニムにしたい部分もあったりする
それは客の業務に依存する部分になるからな
514デフォルトの名無しさん
2018/07/07(土) 15:17:11.21ID:kLxolQc6 考えるのはキミじゃないワケ
キミはただのドカタなワケ
わかる?
客と良好な関係を保つには
できるだけ、それは仕様ですは避けないといけない
そしてそれを低いコストで実現できないといけない
なにをしたいのかはっきりといってる部分については
こっちから客の業務についてどうこういう必要も理由もないし
こんなしょうもないことを実現するためにめっちゃカネかかりますよとかいえるワケもない
そういうことだ
キミはただのドカタなワケ
わかる?
客と良好な関係を保つには
できるだけ、それは仕様ですは避けないといけない
そしてそれを低いコストで実現できないといけない
なにをしたいのかはっきりといってる部分については
こっちから客の業務についてどうこういう必要も理由もないし
こんなしょうもないことを実現するためにめっちゃカネかかりますよとかいえるワケもない
そういうことだ
515デフォルトの名無しさん
2018/07/07(土) 15:56:51.92ID:hSg2x2AH516デフォルトの名無しさん
2018/07/07(土) 17:04:10.09ID:i11AJyJz 絵文字の無茶な合成が有りなんだから
平と成をzwjでくっつけたら~になるとかでいいのに
平と成をzwjでくっつけたら~になるとかでいいのに
517デフォルトの名無しさん
2018/07/07(土) 20:17:18.16ID:Ty8z3s6n 魚 + ZWJ + 里 = 鯉
とか収拾がつかなくなる
とか収拾がつかなくなる
518デフォルトの名無しさん
2018/07/07(土) 20:47:01.42ID:hSg2x2AH 光+宙=ピカチュウとか?
519デフォルトの名無しさん
2018/07/07(土) 21:11:51.93ID:URcWOMtI 次の元号組み文字はCP932やJISX0213には入るのかな?
520デフォルトの名無しさん
2018/07/07(土) 22:51:54.27ID:AwQTnpwn 月+光=胱とか
実際に胱を人名に使えるようにしてほしいという要望があるそうだ
実際に胱を人名に使えるようにしてほしいという要望があるそうだ
521デフォルトの名無しさん
2018/07/08(日) 00:07:58.74ID:ib3y3idC 自力でマッピングするnkfの遅さ。文化遺産だから保守され続けるのだろうけど。
522デフォルトの名無しさん
2018/07/08(日) 00:46:47.26ID:5rg7g6N2 ていうか確かそういう(漢字を結合する)のにピッタシな文字が用意されてた筈。
漢字表示文字だとかいう名称だったけど、検索してもそれらしい記事が引っ掛からんので
多分この名称は違う。
漢字表示文字だとかいう名称だったけど、検索してもそれらしい記事が引っ掛からんので
多分この名称は違う。
523デフォルトの名無しさん
2018/07/08(日) 00:54:45.54ID:AL4TGRyQ524デフォルトの名無しさん
2018/07/08(日) 21:30:52.45ID:Dz8m9jRj >>520
でもその月は本来は肉なのでわ
でもその月は本来は肉なのでわ
525デフォルトの名無しさん
2018/07/08(日) 21:58:14.68ID:VztP7D+N526デフォルトの名無しさん
2018/07/08(日) 22:00:52.97ID:fj164SAR >>520
要望する人はそんなの気にしないんでしょ
要望する人はそんなの気にしないんでしょ
527デフォルトの名無しさん
2018/07/08(日) 22:01:58.98ID:fj164SAR528デフォルトの名無しさん
2018/07/08(日) 22:15:50.43ID:0enAxBm5 合字と、ひとつの漢字が偏旁に分かれているのとはまた別だろ
529デフォルトの名無しさん
2018/07/08(日) 22:25:52.71ID:fj164SAR 胱を人名に使えるようにしてほしいと要望している人たちは
胱を月と光の合字のようなものと考えてるんだろうなって話だからな
胱を月と光の合字のようなものと考えてるんだろうなって話だからな
530デフォルトの名無しさん
2018/07/08(日) 22:58:07.18ID:CFOYAJun しかし肉と光でなんで膀胱なんだろうな
光は頭の上に火を掲げる神聖な存在を表していたらしいけど
特殊な性癖の人が尿を聖水というのと関係があるのかしら
光は頭の上に火を掲げる神聖な存在を表していたらしいけど
特殊な性癖の人が尿を聖水というのと関係があるのかしら
531デフォルトの名無しさん
2018/07/08(日) 23:05:05.80ID:FVlDE0YC 三光作戦の光
532デフォルトの名無しさん
2018/07/09(月) 02:42:13.13ID:f4diYHew 形声文字という概念も知らんのか…
533デフォルトの名無しさん
2018/07/09(月) 03:26:55.92ID:kfYRLcv/ >>530
https://blog.goo.ne.jp/ishiseiji/e/0177ce8e642676c6cffe2e87b0fc4766
胱 コウ 月部にく
解字 「月(からだ)+光(ひろがる)」 の会意形声。身体の中で尿をためておく袋状のもの。尿がたまってくると袋がひろがる。
意味 「膀胱ボウコウ」(ゆばりぶくろ)に使われる字。旁ボウも光コウも、ひろがる意。これに肉月をつけて身体のなかで尿をためて拡がる器官を表した。
https://blog.goo.ne.jp/ishiseiji/e/0177ce8e642676c6cffe2e87b0fc4766
胱 コウ 月部にく
解字 「月(からだ)+光(ひろがる)」 の会意形声。身体の中で尿をためておく袋状のもの。尿がたまってくると袋がひろがる。
意味 「膀胱ボウコウ」(ゆばりぶくろ)に使われる字。旁ボウも光コウも、ひろがる意。これに肉月をつけて身体のなかで尿をためて拡がる器官を表した。
534デフォルトの名無しさん
2018/07/09(月) 04:35:05.56ID:4WT+OSln 肺やちんこも広がるのですが?
535デフォルトの名無しさん
2018/07/11(水) 19:19:37.68ID:gmqqN491 昔の知識じゃそんなこと分からんやろ
足りない頭ひねって考えろやボケナス
足りない頭ひねって考えろやボケナス
536デフォルトの名無しさん
2018/07/11(水) 19:27:48.34ID:A6luu057 昔のちんこは拡がらなかったのですか!?
537デフォルトの名無しさん
2018/07/11(水) 22:21:59.51ID:LQKpeeG0 大陸の人のちんこはやらかい印象がある
538デフォルトの名無しさん
2018/07/12(木) 02:46:54.78ID:iPCGhCdE ギリシャでは包茎が持て囃されたしね
539デフォルトの名無しさん
2018/07/12(木) 09:58:56.70ID:x8Svnlzm 豚の膀胱が蹴鞠の材料だっけ
540デフォルトの名無しさん
2018/07/18(水) 22:57:34.06ID:BB+kHIx9 新元号がUnicode12にギリ間に合わないから12.1出そうかって話が出てきたか
541デフォルトの名無しさん
2018/07/19(木) 01:23:42.91ID:yQzT/5Dr この前危うく間に合いそうになってましたけどね
542デフォルトの名無しさん
2018/07/19(木) 06:57:15.79ID:0leqnnH4 えぇ そんな一国の事情でUnicode様が右往左往されるのですか!?
543デフォルトの名無しさん
2018/07/22(日) 16:13:27.34ID:WQtj2cDH トルコリラの「も」みたいなやつ追加した時もほぼそれだけじゃなかったっけ?
544デフォルトの名無しさん
2018/07/25(水) 14:58:24.45ID:oBls1I2Q Adobe-Japan1-6 Is Expecting!
https://blogs.adobe.com/CCJKType/2018/07/adobe-japan1-6-is-expecting.html
えーAdobe-Japan1-7って新元号を追加するだけで終わりなのー?
https://blogs.adobe.com/CCJKType/2018/07/adobe-japan1-6-is-expecting.html
えーAdobe-Japan1-7って新元号を追加するだけで終わりなのー?
545デフォルトの名無しさん
2018/07/25(水) 17:15:18.78ID:41CwtA3+ う、うん…(´・ω・`)
546デフォルトの名無しさん
2018/07/25(水) 18:24:58.87ID:oBls1I2Q JIS X 0212 補助漢字の残りはいつになったら……(´・ω・`)
547デフォルトの名無しさん
2018/07/25(水) 19:23:56.34ID:rm2bmQuM UTF-7の仕組みをはじめてしったが面倒くさいエンコードだった。
UTF-16と、BASE64に依存しててこれがなければ成立しないのかよ。
単体で存在するUTF-8とかと一緒かとおもってた。
UTF-16と、BASE64に依存しててこれがなければ成立しないのかよ。
単体で存在するUTF-8とかと一緒かとおもってた。
548デフォルトの名無しさん
2018/07/25(水) 22:28:09.49ID:NKwfwGfT 元号の組文字に先行リリースするほどの価値があるかなぁ
何にしろ早くAJ18出してよ
何にしろ早くAJ18出してよ
549デフォルトの名無しさん
2018/07/25(水) 22:55:41.73ID:QC64Azkr 元号の組文字使ってるとこあんの?
550デフォルトの名無しさん
2018/07/26(木) 00:34:28.84ID:a2xMjw11 来年の5月までまだ9ヶ月強あるのに今の時点でもうAJ1-7は2文字だけと決めてしまうなんて
候補の選定ってそんなに手間のかかるもんなのかねぇ
候補の選定ってそんなに手間のかかるもんなのかねぇ
551デフォルトの名無しさん
2018/07/26(木) 20:55:22.84ID:vMAtbXfy どの言語圏であれ、国家が絡めば、Unicode界隈ではおおごとだよ。日本の元号だってまさにそう。
あの絵文字どうしますかね、とかそういうレベルじゃないから。
あの絵文字どうしますかね、とかそういうレベルじゃないから。
552デフォルトの名無しさん
2018/07/27(金) 01:59:49.37ID:mPyMQHHw 元号も絵文字にしようよもう
覚えるの大変だよ
覚えるの大変だよ
553デフォルトの名無しさん
2018/07/27(金) 02:29:56.02ID:27BaLAkY そもそも漢字や象形文字は、一種の絵文字だけどね。
554デフォルトの名無しさん
2018/07/27(金) 02:40:46.86ID:1Fj2fl7C そもそも論はどうでもいい
555デフォルトの名無しさん
2018/07/27(金) 03:15:50.87ID:Wnb3i599 AJ16が出て結構経つとはいえこの間JISの改訂があったわけでもないんで
意外とAJ18も数十〜数百文字程度の小規模アップデートで終わるかも
意外とAJ18も数十〜数百文字程度の小規模アップデートで終わるかも
556デフォルトの名無しさん
2018/07/27(金) 04:12:40.69ID:L9NPxvRK 元号が絵文字になるとVSによって色黒な昭和とか女性的な明治とかが生まれるのか
557デフォルトの名無しさん
2018/07/27(金) 12:33:29.72ID:iHbYMqNW 元号なんて漢字2文字並べて書けばいいからそんな急ぐ必要無いだろ。
組み文字はUnicode13以降でもいいだろ。
組み文字はUnicode13以降でもいいだろ。
558デフォルトの名無しさん
2018/07/27(金) 17:48:33.71ID:27BaLAkY 大国であれ小国であれ、一国家の行政が絡んでいるという時点で、急ぐ必要があるんだよ。
なにしろ影響を受ける人の桁数が違う。
なにしろ影響を受ける人の桁数が違う。
559デフォルトの名無しさん
2018/07/27(金) 19:18:57.24ID:OorWiyDH 元号組文字なんか使ってる奴いるの?
560デフォルトの名無しさん
2018/07/27(金) 19:32:41.17ID:VZghEMWS 役所やぞ
561デフォルトの名無しさん
2018/07/27(金) 19:45:53.97ID:ZZpxf/7G 文字の名前もグリフも未定だけどとりあえずコードポイントだけ押さえましたなんて
Unicode史に残る珍事だと思うわ
Unicode史に残る珍事だと思うわ
562デフォルトの名無しさん
2018/07/27(金) 19:56:54.08ID:Sut8d6Pq 影響を受けやすいような手段を一国家の行政が採用している無能さを棚に上げてるから駄目なんだ
563デフォルトの名無しさん
2018/07/27(金) 20:31:49.16ID:27BaLAkY 「ワシは知らん」とUnicodeが無視した場合、本来は1ベンダーにすぎないマイクロソフトがそのしわ寄せに対応することになり、
結局、マイクロソフトの独自拡張をUnicodeがしぶしぶ追認することになるので二度手間なんだよ。
結局、マイクロソフトの独自拡張をUnicodeがしぶしぶ追認することになるので二度手間なんだよ。
564デフォルトの名無しさん
2018/07/27(金) 22:03:28.66ID:x//i6AWs 北朝鮮の将軍様専用ハングルとか数文字は国家規格に入ってるにも関わらず
未だにUnicodeに入れて貰えてないよな。
未だにUnicodeに入れて貰えてないよな。
565デフォルトの名無しさん
2018/07/27(金) 22:09:52.68ID:N1oOfHi2 元首の交代に伴って変更される紀年法をまだ使ってる国なんて他にあんのかね
566デフォルトの名無しさん
2018/07/27(金) 23:53:13.41ID:G98hsmYh まず無いだろうけど、もし新元号が現時点でUnicodeに無い漢字を使うものになったら
統合漢字のURO末端に緊急追加になるだろうな。
統合漢字のURO末端に緊急追加になるだろうな。
567デフォルトの名無しさん
2018/07/28(土) 01:26:08.91ID:YvWIBfUX568デフォルトの名無しさん
2018/07/28(土) 14:53:59.34ID:39ICzHjE M明治
T対象
S昭和
H平成
A麻原
T対象
S昭和
H平成
A麻原
569デフォルトの名無しさん
2018/07/28(土) 14:57:49.43ID:gid9j1yM ゆぁ〜えーびぃ〜すぃ〜ん♪
570デフォルトの名無しさん
2018/07/30(月) 00:49:54.80ID:/AsJWau1 >>564
そういえばあれって三代目用の文字もあるのかな?
そういえばあれって三代目用の文字もあるのかな?
571デフォルトの名無しさん
2018/07/31(火) 17:52:18.88ID:A7NyuH1x 将軍様専用ハングル以外にUnicode未収録文字は縞模様の三角とか謎の記号がいくつかあったな。
北朝鮮で使われてるRed Star OSではUnicodeが使われてるけどこれらはPUAに割り当てられてる。
因みにWindowsの北朝鮮版は無い。
>>570
2012年頃の改訂で追加されたらしい。
北朝鮮で使われてるRed Star OSではUnicodeが使われてるけどこれらはPUAに割り当てられてる。
因みにWindowsの北朝鮮版は無い。
>>570
2012年頃の改訂で追加されたらしい。
572デフォルトの名無しさん
2018/07/31(火) 23:58:28.90ID:NbiBz0uu 新元号組み文字はJIS X0213には入れるのかな。
入れるとしたら~の1つ前の1面13区62点、シフトでJIS0x877D辺りか。
入れるとしたら~の1つ前の1面13区62点、シフトでJIS0x877D辺りか。
573デフォルトの名無しさん
2018/08/02(木) 01:17:44.00ID:OU+qDqBT 専用ハングルはなんで「金」とか「日」とか重複する文字を代ごとに別々に入れてるのか謎
574デフォルトの名無しさん
2018/08/02(木) 01:31:21.78ID:A1dOXp8b >>573
謎か?
謎か?
575デフォルトの名無しさん
2018/08/02(木) 04:36:12.48ID:0KRWeg2T 最近の文字コードやばない?
576デフォルトの名無しさん
2018/08/02(木) 08:45:58.28ID:XfZDNvg1 文字コードとしては謎だろ
担当は何をしているのか
指摘どころか質問した時点で解雇されるルールでもあるのかよってくらいに謎だわ
担当は何をしているのか
指摘どころか質問した時点で解雇されるルールでもあるのかよってくらいに謎だわ
577デフォルトの名無しさん
2018/08/03(金) 00:21:52.08ID:SeT2nEoR やっぱおじいちゃんの金とおとうさんの正をを孫に使ったりしたら怒られるのかな。
グリフを見ただけで誰用の金なのかを見比べるスキルが必要になるんだろうな。
グリフを見ただけで誰用の金なのかを見比べるスキルが必要になるんだろうな。
578デフォルトの名無しさん
2018/08/03(金) 20:44:28.67ID:TC+4ZTQW nkfコマンドってなにもオプション指定しないでも文字化け直してくれるんだなw
どうやってるのか知らなくて怖いが(普段はiconv(1)を使ってる)
どうやってるのか知らなくて怖いが(普段はiconv(1)を使ってる)
579デフォルトの名無しさん
2018/08/04(土) 01:43:06.83ID:i5vBNvJr 美乳
580デフォルトの名無しさん
2018/08/04(土) 02:59:33.13ID:iDjKbl2c >>579
今時EUC-jpが生きてるシステムってあるの?
今時EUC-jpが生きてるシステムってあるの?
581デフォルトの名無しさん
2018/08/04(土) 04:56:17.77ID:iUNKVgUH 文字コードの自動判別は、100% 正確じゃない
間違うこともある
間違うこともある
582デフォルトの名無しさん
2018/08/04(土) 09:23:39.15ID:LcV/uUAN bit 順に意味があるんだろうけど
"\xC8\xFE\xC6\xFD"
なんでこれで自動検出できるかの説明が欲しい
"\xC8\xFE\xC6\xFD"
なんでこれで自動検出できるかの説明が欲しい
583デフォルトの名無しさん
2018/08/04(土) 09:42:12.43ID:eMjkhZRT584デフォルトの名無しさん
2018/08/04(土) 16:00:30.01ID:qslvxdhp UnicodeはUCS-4を基本形にして
UTF-8はUCS-4の圧縮版のような扱いでいいんじゃないか
UCS-4ならCode Chartsに書かれている値をそのまま使うから分かりやすいし
UTF-16は廃止してもいいと思う
UTF-8はUCS-4の圧縮版のような扱いでいいんじゃないか
UCS-4ならCode Chartsに書かれている値をそのまま使うから分かりやすいし
UTF-16は廃止してもいいと思う
585デフォルトの名無しさん
2018/08/04(土) 22:01:13.64ID:TFSU2vbY わざわざ廃止とかデメリットしかない
586デフォルトの名無しさん
2018/08/04(土) 22:35:16.02ID:sXotmGKy WindowsのAPIがUTF-16ベースなのに廃止とか無理でしょ
587デフォルトの名無しさん
2018/08/04(土) 23:38:59.79ID:Xh+3QD0k pcre はutf8対応が不完全。無理もない話だけど。
文字コードのライブラリを作る人からすればutf8よりも、utf16やutf32の方が便利。
文字コードのライブラリを作る人からすればutf8よりも、utf16やutf32の方が便利。
588デフォルトの名無しさん
2018/08/04(土) 23:53:51.88ID:9dBFGr/9 そのutf-8の問題は utf-16でもutf-32でも同じなのでは
589デフォルトの名無しさん
2018/08/05(日) 03:05:25.66ID:lHG7kQYc seekがめんどくさいのがUTF-8の問題だと思うんだけど違うの?
590デフォルトの名無しさん
2018/08/05(日) 03:36:24.64ID:oEhLV38F UTF-16はUTF-8とUTF-32のデメリットを兼ね備えていて、
メリットが無いような気がする。
メリットが無いような気がする。
591デフォルトの名無しさん
2018/08/05(日) 04:33:54.11ID:kXrZdLCy このスレに来るような人が、どうしてutf8とutf16/32が同じと思うのか不思議。
自力で文字判定処理をやったことがないスクリプト言語プログラミング一辺倒の人?
自力で文字判定処理をやったことがないスクリプト言語プログラミング一辺倒の人?
592デフォルトの名無しさん
2018/08/05(日) 08:22:11.27ID:RknsX4qY593デフォルトの名無しさん
2018/08/05(日) 08:42:30.75ID:kXrZdLCy pythonなんて内部の文字コードutf16だよ。
使う側が意識せずに済んでるってのがむしろ凄いわけで。
utf16要らないとか言ってる人は、事業仕分けでドヤ顔する民主党議員だわ。
使う側が意識せずに済んでるってのがむしろ凄いわけで。
utf16要らないとか言ってる人は、事業仕分けでドヤ顔する民主党議員だわ。
594デフォルトの名無しさん
2018/08/05(日) 10:13:37.02ID:lHG7kQYc 仕分けしたからモリカケだけで済んでるんじゃないの?
595デフォルトの名無しさん
2018/08/05(日) 12:03:49.97ID:LsZm/jJA 本当だよ
無駄な予算にかけようとするこういうバカは消えてほしい
無駄な予算にかけようとするこういうバカは消えてほしい
596デフォルトの名無しさん
2018/08/05(日) 14:46:05.09ID:mhm3uufJ UTF-16はいきなり廃止するのは無理でも
新規設計非推奨くらいにはしてほしいよ
新規設計非推奨くらいにはしてほしいよ
597デフォルトの名無しさん
2018/08/05(日) 14:49:57.92ID:SfajzAT9 WinAPIでUTF-16使ってるから廃止は無理でしょ
598デフォルトの名無しさん
2018/08/05(日) 15:00:37.79ID:mhm3uufJ UTF-16は世界中の文字を固定長で表せるようにすることが目標だったから
16bitではそれができないと分かった以上32bitに変えるべき
16bitではそれができないと分かった以上32bitに変えるべき
599デフォルトの名無しさん
2018/08/05(日) 20:42:38.42ID:kXrZdLCy linux64bit版gccは、wchar_tやstd::wstringが既定でutf32だし、徐々に変わっていくでしょう。
600デフォルトの名無しさん
2018/08/06(月) 11:54:02.02ID:wAAey1Ev win32->win64のタイミングで変えとけばよかったのに
601デフォルトの名無しさん
2018/08/06(月) 12:31:26.13ID:jTWGCXc0 もう一生UTF-16なのかな(´;ω;`)
602デフォルトの名無しさん
2018/08/06(月) 15:04:26.69ID:9QlJsUMm603デフォルトの名無しさん
2018/08/06(月) 19:56:04.82ID:RHl3d08a 必要な時にUTF32を使えればいいだけなのでそんなに深刻がらなくても大丈夫でしょ。
604デフォルトの名無しさん
2018/08/06(月) 20:28:33.56ID:JHbMXthk 基本は8で臨時は32で答えが出ているよなあ
日本独自のJIS関係とかもう要らないし
日本独自のJIS関係とかもう要らないし
605デフォルトの名無しさん
2018/08/06(月) 21:09:19.10ID:J3hEGnZ9 そういえば新元号合字ってJIS X 0213とかCP932とかの系統にも入るのかな?
元号合字使ってるとこはUnicodeじゃない古いとこが多そうだからここに入れないと意味半減な気がするけど
元号合字使ってるとこはUnicodeじゃない古いとこが多そうだからここに入れないと意味半減な気がするけど
606デフォルトの名無しさん
2018/08/06(月) 21:18:55.92ID:RHl3d08a 印刷に使うワープロソフトはすべてunicode対応しているから大丈夫。
607デフォルトの名無しさん
2018/08/07(火) 04:59:39.09ID:OlmXtX1U JIS改訂汁
608デフォルトの名無しさん
2018/08/07(火) 17:57:38.63ID:ym2n+lOO 日本語とか東アジア言語はバイト数の面では
UTF8よりUTF16の方が有利になるのだが。
UTF8よりUTF16の方が有利になるのだが。
609デフォルトの名無しさん
2018/08/07(火) 18:02:30.52ID:pTM8y/Ns そうでもない
610デフォルトの名無しさん
2018/08/07(火) 19:58:16.46ID:4kVMfOQG うむ
日本語などの2バイト圏でも8やで
日本語などの2バイト圏でも8やで
611デフォルトの名無しさん
2018/08/07(火) 21:15:40.62ID:FooseUHS お経とかならそうかも
でも普通の日本語の文書はUTF-8で1バイトになる字がわりと使われてるよね
改行もバカにならない
でも普通の日本語の文書はUTF-8で1バイトになる字がわりと使われてるよね
改行もバカにならない
612デフォルトの名無しさん
2018/08/07(火) 21:38:24.37ID:d4J1pA0H 中国語ならUTF-16のほうが有利?
613デフォルトの名無しさん
2018/08/07(火) 23:58:44.52ID:r6gcb8rL エディタとかUTF-32に対応してないのが多いよな。
まあ、無駄が多いからな。最上位の1バイトは必ず0x00になるから。
まあ、無駄が多いからな。最上位の1バイトは必ず0x00になるから。
614デフォルトの名無しさん
2018/08/08(水) 00:28:20.77ID:rL4NvpAX UTF-16は廃止してUTF-20を策定すべき
615デフォルトの名無しさん
2018/08/08(水) 00:34:22.04ID:tqYMmDjs UTF-24じゃないの
616デフォルトの名無しさん
2018/08/08(水) 01:56:39.24ID:00np0Lo5 ランダムアクセスが一番早い文字コードはどれよ
617デフォルトの名無しさん
2018/08/08(水) 02:09:19.94ID:kZ99Qrjg 余ってる場所を余計なことに使う奴が絶対出てきて、
それを根絶するのに凄い辛い思いをするからヤメレ。
それを根絶するのに凄い辛い思いをするからヤメレ。
618デフォルトの名無しさん
2018/08/08(水) 04:24:19.86ID:tqYMmDjs もうこれ人類的に根絶できないんだろうね
一生これなんだろうね
一生これなんだろうね
619デフォルトの名無しさん
2018/08/08(水) 04:37:42.38ID:XhOfYtOw >>615
utf8でいいよ
utf8でいいよ
620デフォルトの名無しさん
2018/08/08(水) 08:35:31.20ID:/x3y+p/o そういえば、utf9というのもあったな。36ビットコンピュータに最適だとか。
621デフォルトの名無しさん
2018/08/08(水) 14:09:08.17ID:QoUOzAqb UTF-7と言う変態も
622デフォルトの名無しさん
2018/08/08(水) 16:40:51.17ID:QemCzjVB Base64
623デフォルトの名無しさん
2018/08/08(水) 18:02:57.82ID:SZpNbR5J UTF-24を策定するべきだな。
全ての文字を24ビット(3バイト)で表す。
UTF-32の0x00で固定な最上位バイトを省くというので。
BMP外の文字だらけの文章には有利になるだろう。
全ての文字を24ビット(3バイト)で表す。
UTF-32の0x00で固定な最上位バイトを省くというので。
BMP外の文字だらけの文章には有利になるだろう。
624デフォルトの名無しさん
2018/08/08(水) 22:53:07.77ID:jNIJWXgx >>623
だな、固定長はUTF-24、可変長はUTF-8でいいだろう
だな、固定長はUTF-24、可変長はUTF-8でいいだろう
625デフォルトの名無しさん
2018/08/08(水) 23:15:02.85ID:oJrY5QK4 UTF16はいらないとかUTF24がよいとか、変な書き込みする人、同一人物?
CPUのレジスタは32bitまたは64bitなので、1バイトをコピーするのも4バイトをコピーするのも時間コストは同じだよ。
CPUのレジスタは32bitまたは64bitなので、1バイトをコピーするのも4バイトをコピーするのも時間コストは同じだよ。
626デフォルトの名無しさん
2018/08/08(水) 23:48:28.49ID:EMFNgHK2 1バイトと4バイトとかミクロの性能比較なんか殆ど意味無い
627デフォルトの名無しさん
2018/08/08(水) 23:49:21.32ID:SCPSjdZ4 固定長だなんて幻想をまだ見てるの?
628デフォルトの名無しさん
2018/08/08(水) 23:50:49.11ID:7IOaw32y 固定長の方が高速で便利ですやん
629デフォルトの名無しさん
2018/08/08(水) 23:57:42.55ID:oJrY5QK4630デフォルトの名無しさん
2018/08/09(木) 01:13:33.46ID:BF3jeRnZ >>626
ファイルサイズがでかくなればそれだけ処理をする回数が増えるからダイレクトに効いてくる。
ファイルサイズがでかくなればそれだけ処理をする回数が増えるからダイレクトに効いてくる。
631デフォルトの名無しさん
2018/08/09(木) 01:20:56.02ID:BtZU6oOJ CPUひとつあたりの処理速度は10年前とあまり変わってないけど、搭載できるメモリの量は劇的に増えた。
内部実装がUTF32になって文字列リソースが2〜4倍になったとしても利用できるメモリはそれ以上に激増しているのでまったく問題なし。
むしろUTF16やUTF32のほうが頭打ちのCPUにも優しい、ということがわかるはず。
内部実装がUTF32になって文字列リソースが2〜4倍になったとしても利用できるメモリはそれ以上に激増しているのでまったく問題なし。
むしろUTF16やUTF32のほうが頭打ちのCPUにも優しい、ということがわかるはず。
632デフォルトの名無しさん
2018/08/09(木) 09:34:00.04ID:Z95VMlij 16は全然優しくない
24もアライメントを考えると優しくない
24もアライメントを考えると優しくない
633デフォルトの名無しさん
2018/08/09(木) 10:29:52.60ID:4BSOUm1q よし128だ。
634デフォルトの名無しさん
2018/08/09(木) 10:44:02.84ID:NXkdt6vr >>625
放っとけば居なくなるのに
放っとけば居なくなるのに
635デフォルトの名無しさん
2018/08/09(木) 11:03:48.44ID:Z95VMlij >>633
合成やセレクタを撤廃できるのなら128でいいよ
合成やセレクタを撤廃できるのなら128でいいよ
636デフォルトの名無しさん
2018/08/09(木) 11:05:58.21ID:OVYf9YNp UNCODEv6
637デフォルトの名無しさん
2018/08/10(金) 22:27:21.22ID:GO9W3NJ8 UTF24とかメモリアクセス効率悪すぎるだろ。アライン考えろ。
情報交換用文字コードはエンディアンに依存しないUTF8。
内部用の文字コードはアクセス効率が良いUTF32。
貧乏人専用のUTF16。
それぞれ存在理由があるんだよ。
情報交換用文字コードはエンディアンに依存しないUTF8。
内部用の文字コードはアクセス効率が良いUTF32。
貧乏人専用のUTF16。
それぞれ存在理由があるんだよ。
638デフォルトの名無しさん
2018/08/10(金) 23:01:06.31ID:d4sNno4d Windowsの場合、プログラムを何も改修することなくUTF16でサロゲートペアの絵文字を使えているでしょ。
もちろん、文字フォントを描画するAPI、つまりマイクロソフトの中の人が頑張っているからだが。
もちろん、文字フォントを描画するAPI、つまりマイクロソフトの中の人が頑張っているからだが。
639デフォルトの名無しさん
2018/08/10(金) 23:24:23.95ID:d4sNno4d まぁ、Windowsプログラムで、動的に絵文字の肌色・髪色・性別などを変えようと思ったら、
UTF16のサロゲート処理を自分で行う必要があるけどね。
UTF16のサロゲート処理を自分で行う必要があるけどね。
640デフォルトの名無しさん
2018/08/11(土) 00:03:26.88ID:Zp5HrM4G >>637
24が駄目なら8はもっと駄目なんでないの?
24が駄目なら8はもっと駄目なんでないの?
641デフォルトの名無しさん
2018/08/11(土) 10:22:26.41ID:/GDyR5Hs だからUTF8は内部利用じゃなくて情報交換用なんだろ。
642デフォルトの名無しさん
2018/08/11(土) 10:45:32.80ID:0HQvSoaX SJISと取り決めてあるテキストデータにUTF8をぶっこんできた取引先があって
翌朝からの日本社会に大混乱を引き起こしかねない危機に晒された経験がある
UTF8滅ぶべしと俺は本気で思っている
翌朝からの日本社会に大混乱を引き起こしかねない危機に晒された経験がある
UTF8滅ぶべしと俺は本気で思っている
643デフォルトの名無しさん
2018/08/11(土) 10:58:00.76ID:kug6FRsz エンコーディングは関係ないだろ。
決めごとを守れないその取引先と異常データを突っ込まれただけで混乱しちゃうプログラムの問題。
決めごとを守れないその取引先と異常データを突っ込まれただけで混乱しちゃうプログラムの問題。
644デフォルトの名無しさん
2018/08/11(土) 11:30:16.03ID:dFDFw6X4 何年か前に、地域の緊急速報のテストメールか何かに
エンコーディングを混在させて文字化けを地域住民に送って混乱させたのあったな
メールテンプレートのエンコーディングと、流し込む本文で混在させちゃったみたいな
エンコーディングを混在させて文字化けを地域住民に送って混乱させたのあったな
メールテンプレートのエンコーディングと、流し込む本文で混在させちゃったみたいな
645デフォルトの名無しさん
2018/08/11(土) 11:51:55.94ID:AWnFhpjF ないしほてし活復を語本日く書に左らか右どけい良もでき書横
646デフォルトの名無しさん
2018/08/11(土) 13:16:33.61ID:uKNQsIii >>644
去年だぞ
去年だぞ
647デフォルトの名無しさん
2018/08/11(土) 15:11:54.76ID:uEbn4tPy 546<<
ケォヴわいくにみ読
ケォヴわいくにみ読
648デフォルトの名無しさん
2018/08/11(土) 15:47:35.74ID:UCIDniLJ 中東の言語は確か右からだったよな
やろうと思えば簡単そう
やろうと思えば簡単そう
649デフォルトの名無しさん
2018/08/11(土) 15:56:48.16ID:A8A80vkf TeXって右から書くのにも対応してるっけ
650デフォルトの名無しさん
2018/08/11(土) 18:33:53.99ID:Yf3CWOMt sjisの〜とcp932の〜の違いって何?
〜を入力して検索すると、sjisのほうはヒットしないんよね
〜を入力して検索すると、sjisのほうはヒットしないんよね
651デフォルトの名無しさん
2018/08/11(土) 19:10:44.45ID:HdyPScyr652デフォルトの名無しさん
2018/08/12(日) 00:02:17.72ID:ZUsL8uZg >649
ArabTeX を使えば出来ます
ArabTeX を使えば出来ます
653デフォルトの名無しさん
2018/08/12(日) 14:13:27.50ID:pjLEMieq Draft Emoji Candidates
http://unicode.org/emoji/future/emoji-candidates.html
http://unicode.org/emoji/future/emoji-candidates.html
654デフォルトの名無しさん
2018/08/12(日) 14:20:12.48ID:JT/5kO4h 絵文字がんがん増えてるけど、ぱっと見で見分けが付かない微妙なの多いよなぁ
655デフォルトの名無しさん
2018/08/12(日) 14:26:24.04ID:rtSL/abo 馬鹿は同じ過ちを繰り返す
656デフォルトの名無しさん
2018/08/12(日) 14:35:29.88ID:x/eO0jlG そのうち洗練されて象形文字になって、やがて漢字に…あれ?
657デフォルトの名無しさん
2018/08/13(月) 14:33:07.24ID:1RU0E1KE この際1byteを32bitか64bitにしたらどうよ
1byteが8bitになったのはアルファベットや数字が固定長で表せて
2^nbitで処理しやすかったからなんだろうけど
1byteが32bitか64bitになればエンディアンの問題もなくなって分かりやすくなる
1byteが8bitになったのはアルファベットや数字が固定長で表せて
2^nbitで処理しやすかったからなんだろうけど
1byteが32bitか64bitになればエンディアンの問題もなくなって分かりやすくなる
658デフォルトの名無しさん
2018/08/13(月) 14:58:06.25ID:obMX332h そうなんか?
16新数で2桁でちょうどいいからだと思ってた
16新数で2桁でちょうどいいからだと思ってた
659デフォルトの名無しさん
2018/08/13(月) 14:59:26.97ID:obMX332h あと 8bit を 1byte というけど
4bit のことをなんていうの?
4bit のことをなんていうの?
660デフォルトの名無しさん
2018/08/13(月) 15:02:02.90ID:L5U4GWSY >>657
8bitや16bitのCPUはどうすんの?
8bitや16bitのCPUはどうすんの?
661デフォルトの名無しさん
2018/08/13(月) 15:15:08.87ID:fDt52YY1662デフォルトの名無しさん
2018/08/13(月) 15:19:57.39ID:mSGjli4I663デフォルトの名無しさん
2018/08/13(月) 16:04:07.52ID:obMX332h Thx!
DNCL
DNCL
664デフォルトの名無しさん
2018/08/14(火) 02:11:13.81ID:uURIoDLa 無理。各コンピュータ内部なら好きなビッド数にすれば良いけど、インターネットのほぼ全ての規格はオクテットが基準になってる。
インターネット全部作り直すくらいやらないと今更変更できない。
インターネット全部作り直すくらいやらないと今更変更できない。
665デフォルトの名無しさん
2018/08/14(火) 09:43:35.42ID:UwXfpacN byteとoctetを区別すればいいだろ
666デフォルトの名無しさん
2018/08/14(火) 12:58:54.95ID:4hamDsGB >>584
昔の ISO/IEC 10646 がそんな感じじゃなかったっけ?
UCS-4 が Four-Octet Canonical Form (4オクテット正規形) と呼ばれてて
UTF-8 や UTF-16 はあくまで Transformation Format だと。
昔の ISO/IEC 10646 がそんな感じじゃなかったっけ?
UCS-4 が Four-Octet Canonical Form (4オクテット正規形) と呼ばれてて
UTF-8 や UTF-16 はあくまで Transformation Format だと。
667デフォルトの名無しさん
2018/08/14(火) 13:43:48.36ID:RlMqh1JW UTF-32に統一できないなら、UTF-8を残そうがUTF-16を残そうが
どちらも大して変わんないんだよね。
UTF-8 も UTF-16 も既存OSの互換性を保つためにあるのだから
UTF-8はANSI互換性というメリットがあるというけれど
なんてことはない、Unix/Linuxの改修が大変だったから、
文字コードのエンコーディング方式自体を作ったってだけの話
互換性のために作ったものだよ
16bitにすべての文字を収めるのは不可能だが、仮に収まったとしたら
UTF-16はサロゲートペアなどなく1文字16bitというシンプルなものになっていた。
もし最初から32bit必要だと認識していれば、UTF-32という1文字32bitに
統一された素晴らしい文字コードになっていただろう
そしてWindowsはそれを標準文字コードとして採用しただろう。
(WindowsがUTF-16なのは、その頃はUnicode = UTF-16の前身のUCS-2 だったから)
結局固定長でないなら、どちらも面倒なことに大差ないし
互換性を保つために面倒な方式を残すのであれば、
それがUTF-8でもUTF-16でも同じこと
どちらも大して変わんないんだよね。
UTF-8 も UTF-16 も既存OSの互換性を保つためにあるのだから
UTF-8はANSI互換性というメリットがあるというけれど
なんてことはない、Unix/Linuxの改修が大変だったから、
文字コードのエンコーディング方式自体を作ったってだけの話
互換性のために作ったものだよ
16bitにすべての文字を収めるのは不可能だが、仮に収まったとしたら
UTF-16はサロゲートペアなどなく1文字16bitというシンプルなものになっていた。
もし最初から32bit必要だと認識していれば、UTF-32という1文字32bitに
統一された素晴らしい文字コードになっていただろう
そしてWindowsはそれを標準文字コードとして採用しただろう。
(WindowsがUTF-16なのは、その頃はUnicode = UTF-16の前身のUCS-2 だったから)
結局固定長でないなら、どちらも面倒なことに大差ないし
互換性を保つために面倒な方式を残すのであれば、
それがUTF-8でもUTF-16でも同じこと
668デフォルトの名無しさん
2018/08/14(火) 14:30:35.75ID:iWXezx4W UTF-8はエンディアンの問題が無いのが良い
669デフォルトの名無しさん
2018/08/14(火) 15:00:48.27ID:YfFk5ERN 8も16も大して変わらないと言えばそうだけど、種類が少ないに越したことはないし
どっちかひとつ残すならやっぱり8なので、16には退場願いたいね
どっちかひとつ残すならやっぱり8なので、16には退場願いたいね
670デフォルトの名無しさん
2018/08/14(火) 15:32:16.19ID:RlMqh1JW >>669
Windowsという重要な役目があるので無理だってわかってるだろ?
Windowsという重要な役目があるので無理だってわかってるだろ?
671デフォルトの名無しさん
2018/08/14(火) 15:39:29.46ID:tR+8FNHO672デフォルトの名無しさん
2018/08/14(火) 15:47:44.20ID:gsqu+3TO >>670
昔からMSは独自文字コードが大好きだからUNICODEからUTF-16が無くなっても問題ない
昔からMSは独自文字コードが大好きだからUNICODEからUTF-16が無くなっても問題ない
673デフォルトの名無しさん
2018/08/14(火) 16:47:25.95ID:RlMqh1JW >>671
> asciiとの互換性とosの改修は関係ない
大あり。C言語はASCII互換前提となっている。
具体的に言うと、文字列の終端文字が\0なので
UTF-16やUTF-32といった、1文字の中に\0が
含まれてる場合に対応できない
UTF-8でなければprintfなどの基本的でよく使われる関数
全てをUnicode対応に改修しなければならなかった。
もしくは捨て去さるかだ
> asciiとの互換性とosの改修は関係ない
大あり。C言語はASCII互換前提となっている。
具体的に言うと、文字列の終端文字が\0なので
UTF-16やUTF-32といった、1文字の中に\0が
含まれてる場合に対応できない
UTF-8でなければprintfなどの基本的でよく使われる関数
全てをUnicode対応に改修しなければならなかった。
もしくは捨て去さるかだ
674デフォルトの名無しさん
2018/08/14(火) 16:48:00.48ID:RlMqh1JW >>672
昔からUnicode対応なんですがーw
昔からUnicode対応なんですがーw
675デフォルトの名無しさん
2018/08/14(火) 16:54:07.60ID:/zOgrF0V UTF-16やUTF-32も1文字の中に\0が含まれているわけじゃないがな。
676デフォルトの名無しさん
2018/08/14(火) 17:16:53.37ID:X3bC8nHW 含まれるやろ
677デフォルトの名無しさん
2018/08/14(火) 17:17:26.99ID:X3bC8nHW L'\0' は含まれないが '\0' は含まれる
678デフォルトの名無しさん
2018/08/14(火) 17:18:41.77ID:RlMqh1JW http://ash.jp/code/unitbl1.htm
41 41 41 41 0041 A
42 42 42 42 0042 B
43 43 43 43 0043 C
44 44 44 44 0044 D
45 45 45 45 0045 E
右から二番目がUTF16の文字コード
見ての通り基本のアルファベットの中に0x00が含まれてる
つまり ABCは、00 41 00 42 00 43 もしくは 41 00 42 00 43 00 という並びとなり
これをprintf等にわたすとASCII文字として1文字8bitと解釈し、
00を\0とみなすので途中で切れるか全く表示されなくなる
41 41 41 41 0041 A
42 42 42 42 0042 B
43 43 43 43 0043 C
44 44 44 44 0044 D
45 45 45 45 0045 E
右から二番目がUTF16の文字コード
見ての通り基本のアルファベットの中に0x00が含まれてる
つまり ABCは、00 41 00 42 00 43 もしくは 41 00 42 00 43 00 という並びとなり
これをprintf等にわたすとASCII文字として1文字8bitと解釈し、
00を\0とみなすので途中で切れるか全く表示されなくなる
679デフォルトの名無しさん
2018/08/14(火) 17:21:01.63ID:RlMqh1JW 説明足らずな>>675が揚げ足取りだと思われると可愛そうなので(笑)
補足してあげると、UTF-16やUTF-32の1文字はそれぞれ16bit or 32bit で
16bitで\0、32bitで\0 は含まれてないと言いたいのだ
だが今は、printfなど1文字8bitと解釈する関数の話をしているので
8bitずつ見ていくと文字の途中に\0が含まれるのだ
補足してあげると、UTF-16やUTF-32の1文字はそれぞれ16bit or 32bit で
16bitで\0、32bitで\0 は含まれてないと言いたいのだ
だが今は、printfなど1文字8bitと解釈する関数の話をしているので
8bitずつ見ていくと文字の途中に\0が含まれるのだ
680デフォルトの名無しさん
2018/08/14(火) 17:37:04.18ID:YfFk5ERN まあWindowsみたいにcharはロケール依存のままでwchar_tだけUnicodeという構成もあるので
UnixのUnicode対応にUTF-8が必須だったかというとわからんけどなー
UnixのUnicode対応にUTF-8が必須だったかというとわからんけどなー
681デフォルトの名無しさん
2018/08/14(火) 19:46:09.12ID:+lmSJTba >>680
え? Unixもwchar_tはUnicodeだけど?
え? Unixもwchar_tはUnicodeだけど?
682デフォルトの名無しさん
2018/08/14(火) 20:25:18.83ID:cWcfj41B 正確には、既存のコードの多くは wchar_t が使われて無くて、
その対応が大変だっていう話
WindowsはOSすべてを自分たちで作ってるからどうにかなったが、
オープンソースで他人が作ったものの寄せ集めだと対応が大変だろうね
その対応が大変だっていう話
WindowsはOSすべてを自分たちで作ってるからどうにかなったが、
オープンソースで他人が作ったものの寄せ集めだと対応が大変だろうね
683デフォルトの名無しさん
2018/08/14(火) 20:38:21.12ID:+lmSJTba gcc は、 wchar_t を16bitと32bitでコンパイル時に選択できるようになっているので、のちのちWindows以上に厄介なことになるでしょう。
684デフォルトの名無しさん
2018/08/14(火) 22:54:07.34ID:YfFk5ERN >>681
Linuxではそうだけど、Unix一般の話でいうとwchar_tはcharの多バイト文字をひとつの値で表せられるならなんでもいいし
実際BSDはcharがSJISならwchar_tはJISコード
Linuxではそうだけど、Unix一般の話でいうとwchar_tはcharの多バイト文字をひとつの値で表せられるならなんでもいいし
実際BSDはcharがSJISならwchar_tはJISコード
685デフォルトの名無しさん
2018/08/15(水) 01:31:39.17ID:URD+Lz/b OSの中とかプログラム言語とかどうでもいい。
インターネットとかの通信プロトコルでオクテット(8bit)単位で交信、終端は0x0A 0x0Dとかの特定のオクテットコード列を使用とかになってるのが多数ある。
内部では好きなビット数で処理すれば良いけど、通信には8bit単位の処理系も必須。
ユニコード使うかどうか以前の問題。
インターネットとかの通信プロトコルでオクテット(8bit)単位で交信、終端は0x0A 0x0Dとかの特定のオクテットコード列を使用とかになってるのが多数ある。
内部では好きなビット数で処理すれば良いけど、通信には8bit単位の処理系も必須。
ユニコード使うかどうか以前の問題。
686デフォルトの名無しさん
2018/08/15(水) 01:44:12.43ID:Vx/KYfiZ ケチケチ言わずIPV6くらいドカンと拡張しようぜ
687デフォルトの名無しさん
2018/08/15(水) 02:10:10.66ID:sxh1cciH wcharは、内部の符号化に依存しちゃいけないし、幅が 16bitか32bitかに依存するのもよくない
使うのがなかなか難しいね
但し、char と混在させるのは単なる誤り。printf に使うと途中で切れるとかいうのは使う側のミス
使うのがなかなか難しいね
但し、char と混在させるのは単なる誤り。printf に使うと途中で切れるとかいうのは使う側のミス
688デフォルトの名無しさん
2018/08/15(水) 05:49:51.06ID:fSWxnCwv wchar_tやったときない
689デフォルトの名無しさん
2018/08/15(水) 11:55:41.55ID:RPpo5aFa690デフォルトの名無しさん
2018/08/15(水) 13:30:59.38ID:/R99sNfj >>687
printfはchar(のポインタ)を受け取るんだから、wchar_tは使えないでしょ?
というかcharで表示できない文字だから、wchar_tが作られたというのが正しい
そうなると、printfだけでなく多くの文字列用関数に対して
charバージョンとwchar_tバージョンが必要になって、変更しなければいけなくなるよね
それが大変だからUnix/LinuxはUTF-16には対応するのは現実的に不可能
対応が簡単なUTF-8を作りました。という流れ。
>>689
> LANG=C.UTF-16みたいなロケールがあったとしての話だろ
Unix/LinuxはUTF-16に対応するの大変だから、
そんなロケールは実現できないだろうね
似たような理由EUC-JPは対応できたけど、SJISは対応できなかった
と思ったけど以下のような警告出るけど使えるのかw
> # localedef -f SHIFT_JIS -i ja_JP /usr/lib/locale/ja_JP.SJIS
> キャラクタマップ `SHIFT_JIS' は ASCII 互換ではありません, ロケールは ISO C に従っていません
こんなのまで見つけた
http://www.ossforum.jp/jossfiles/Linux_SJIS_Support.pdf
ダメ文字(文字の一部に\が含まれる場合)にさえ、あたらなければ大丈夫ってことなんかな
UTF-16と違って確率的には低いだろうけど
printfはchar(のポインタ)を受け取るんだから、wchar_tは使えないでしょ?
というかcharで表示できない文字だから、wchar_tが作られたというのが正しい
そうなると、printfだけでなく多くの文字列用関数に対して
charバージョンとwchar_tバージョンが必要になって、変更しなければいけなくなるよね
それが大変だからUnix/LinuxはUTF-16には対応するのは現実的に不可能
対応が簡単なUTF-8を作りました。という流れ。
>>689
> LANG=C.UTF-16みたいなロケールがあったとしての話だろ
Unix/LinuxはUTF-16に対応するの大変だから、
そんなロケールは実現できないだろうね
似たような理由EUC-JPは対応できたけど、SJISは対応できなかった
と思ったけど以下のような警告出るけど使えるのかw
> # localedef -f SHIFT_JIS -i ja_JP /usr/lib/locale/ja_JP.SJIS
> キャラクタマップ `SHIFT_JIS' は ASCII 互換ではありません, ロケールは ISO C に従っていません
こんなのまで見つけた
http://www.ossforum.jp/jossfiles/Linux_SJIS_Support.pdf
ダメ文字(文字の一部に\が含まれる場合)にさえ、あたらなければ大丈夫ってことなんかな
UTF-16と違って確率的には低いだろうけど
691デフォルトの名無しさん
2018/08/15(水) 15:55:17.05ID:fksu3zh2 >>662
シュメール文明の神アヌンナキたちの故郷の惑星のことかと思った
シュメール文明の神アヌンナキたちの故郷の惑星のことかと思った
692デフォルトの名無しさん
2018/08/15(水) 16:15:54.08ID:Y4UT7naw 乳首の甘噛み
693デフォルトの名無しさん
2018/08/15(水) 16:25:48.18ID:fSWxnCwv694デフォルトの名無しさん
2018/08/15(水) 16:43:22.85ID:BHOopni+ >>693
だからダメ文字だって
http://ash.jp/code/code.htm
> また、2バイト文字の中に"\"(0x5C)を含むデータが存在するため、文字列がメタ処理されてしまい、文字化けする可能性があります。
LinuxやUnixに限った話ではないけど、
文字を1バイトずつ処理するようなもの(つまりcharポインタ)は
ASCIIと互換性がないと不具合の原因になる
だからSJISやUTF-16やUTF-32はLinuxやUnixで
ネイティブに処理するのは苦手なんだ
だからダメ文字だって
http://ash.jp/code/code.htm
> また、2バイト文字の中に"\"(0x5C)を含むデータが存在するため、文字列がメタ処理されてしまい、文字化けする可能性があります。
LinuxやUnixに限った話ではないけど、
文字を1バイトずつ処理するようなもの(つまりcharポインタ)は
ASCIIと互換性がないと不具合の原因になる
だからSJISやUTF-16やUTF-32はLinuxやUnixで
ネイティブに処理するのは苦手なんだ
695デフォルトの名無しさん
2018/08/15(水) 17:20:00.89ID:/SQznhgr 中途半端な多encoding対応で不具合が出たという話。要はバグ。
696デフォルトの名無しさん
2018/08/15(水) 22:23:06.07ID:URD+Lz/b アホか、アホしか居ないか?
それともわざとボケてんのか?
なんで wchar_t の話と printf の話を一緒に語ってるんだ?
wprintf 🤔
それともわざとボケてんのか?
なんで wchar_t の話と printf の話を一緒に語ってるんだ?
wprintf 🤔
697デフォルトの名無しさん
2018/08/16(木) 02:36:38.02ID:agaekNdO >>696
だからprintfで実装されているものをwprintfに修正するのが大変だって話
またwopenfなどワイド文字対応の関数が存在しない場合も存在する。
それに単純に置き換えてしまうと、今度はASCII環境で動かなくなってしまう
なぜならwchar_tは16bit または 32bitという固定サイズなので
8bitのASCIIは扱えない(当然可変長バイトのUTF-8もwchar_tでは扱えない)
だからwchart_tというものが作られたけど、Linux/Unixはそれを使用して
ワイド文字列対応にするのは現実的に不可能と判断し、
printfで扱えるASCII互換のUTF-8を使うことにした
だからprintfで実装されているものをwprintfに修正するのが大変だって話
またwopenfなどワイド文字対応の関数が存在しない場合も存在する。
それに単純に置き換えてしまうと、今度はASCII環境で動かなくなってしまう
なぜならwchar_tは16bit または 32bitという固定サイズなので
8bitのASCIIは扱えない(当然可変長バイトのUTF-8もwchar_tでは扱えない)
だからwchart_tというものが作られたけど、Linux/Unixはそれを使用して
ワイド文字列対応にするのは現実的に不可能と判断し、
printfで扱えるASCII互換のUTF-8を使うことにした
698デフォルトの名無しさん
2018/08/16(木) 02:59:55.06ID:HgLxU9xg ダウト
wchar_t で普通に ASCII も使える。当たり前。i18n でプログラム組んだことないだろ?
UNIX 系で utf8 が好まれる最大の理由は内部コードとかじゃなくて、ファイル名。
ファイル名に直接 0x00 が入れられないので。あとはネットワークまわり。
wchar_t で普通に ASCII も使える。当たり前。i18n でプログラム組んだことないだろ?
UNIX 系で utf8 が好まれる最大の理由は内部コードとかじゃなくて、ファイル名。
ファイル名に直接 0x00 が入れられないので。あとはネットワークまわり。
699デフォルトの名無しさん
2018/08/16(木) 03:50:25.48ID:agaekNdO そりゃ16bit(つまりUTF-16)として書くか変換すりゃASCIIの範囲の文字列は
扱えるだろうさ、そうじゃなくて8bitのASCII文字が扱えないって話
charは1文字8bitとして定義されたものだが、UTF-8を扱う場合は可変長としても考えられる
wchar_tは16bit (または 環境によっては32bit)であるがUTF-16を扱う場合は16bit単位の可変長、
つまりサロゲートペアを扱える。しかしwchar_tは所詮16bit(または32bit)単位なので8bitは扱えない
そのためUTF-8のファイルを読み込むときには、wchar_tに変換して読み込まなければいけない。
例えば8bitのASCIIコードであれば残りの8bitを\x00で埋めた16bitのUTF-8に変換するとかしてだ。
このようにASCII互換のデータを扱うためには単純にchar型をwchar_t型に置換しただけでは
だめで変換処理が必要になる。それに対してUTF-8であれば、char型を可変長char型と
みなすことでそのまま扱うことができる。文字列の長さをカウントするときとか
1文字単位で処理しなければいけないところだけ、UTF-8を扱えるライブラリを使えば良い
扱えるだろうさ、そうじゃなくて8bitのASCII文字が扱えないって話
charは1文字8bitとして定義されたものだが、UTF-8を扱う場合は可変長としても考えられる
wchar_tは16bit (または 環境によっては32bit)であるがUTF-16を扱う場合は16bit単位の可変長、
つまりサロゲートペアを扱える。しかしwchar_tは所詮16bit(または32bit)単位なので8bitは扱えない
そのためUTF-8のファイルを読み込むときには、wchar_tに変換して読み込まなければいけない。
例えば8bitのASCIIコードであれば残りの8bitを\x00で埋めた16bitのUTF-8に変換するとかしてだ。
このようにASCII互換のデータを扱うためには単純にchar型をwchar_t型に置換しただけでは
だめで変換処理が必要になる。それに対してUTF-8であれば、char型を可変長char型と
みなすことでそのまま扱うことができる。文字列の長さをカウントするときとか
1文字単位で処理しなければいけないところだけ、UTF-8を扱えるライブラリを使えば良い
700デフォルトの名無しさん
2018/08/16(木) 06:01:32.95ID:agaekNdO 訂正
そのためUTF-8のファイルを読み込むときには、wchar_tに変換しながら読み込まなければいけない。
例えば8bitのASCIIコードであれば残りの8bitを\x00で埋めた16bitのUTF-16に変換するとかしてだ。
そのためUTF-8のファイルを読み込むときには、wchar_tに変換しながら読み込まなければいけない。
例えば8bitのASCIIコードであれば残りの8bitを\x00で埋めた16bitのUTF-16に変換するとかしてだ。
701デフォルトの名無しさん
2018/08/16(木) 08:19:53.82ID:RvAH1val ファイルシステムに記録された物理的encodingに依存したコーディングができる方が良いという主張かねぇ。
702デフォルトの名無しさん
2018/08/16(木) 08:31:16.13ID:FM/GQ3/9 Windows標準のXmlLiteというXMLパーサーは、入力ファイルがどんな文字エンコードだろうと、
UTF16に適宜変換するようになっているので、プログラマに読み取り時の文字エンコード選択の余地はない。
UTF16に適宜変換するようになっているので、プログラマに読み取り時の文字エンコード選択の余地はない。
703デフォルトの名無しさん
2018/08/16(木) 10:25:22.61ID:Lp1O0T8c >>701
内部ネイティブ文字コードがcharになっているLinux/Unixでは
char非互換の文字コードに対応するのが大変だったという主張
>>702
Windowsは内部ネイティブ文字コードがUnicode(UTF-16)だから
別にそれでいいのでは?
それにしても結果論ではあるけど、wchar_tは失敗だったねぇ
16bitでは足りないことは最初からわかっていたけど、たとえ32bitであっても
異字体セレクタやらで意味的な1文字のbit数が固定ではなくなってしまった。
固定でないならば単純な実装で文字を扱うのは不可能。
whar_t使うメリットが無くなってしまった。
まあその怪我の功名で絵文字に色がつけられるようになり、肌色の違いも
対応も可能になったんだけど、これも良かったんだか悪かったんだが。
ここまで来たら絵文字以外の文字も全て色変化対応にしたらって思う
そうすりゃエスケープシーケンスなしで色を付けられるよ
もはや文字コードじゃないね
内部ネイティブ文字コードがcharになっているLinux/Unixでは
char非互換の文字コードに対応するのが大変だったという主張
>>702
Windowsは内部ネイティブ文字コードがUnicode(UTF-16)だから
別にそれでいいのでは?
それにしても結果論ではあるけど、wchar_tは失敗だったねぇ
16bitでは足りないことは最初からわかっていたけど、たとえ32bitであっても
異字体セレクタやらで意味的な1文字のbit数が固定ではなくなってしまった。
固定でないならば単純な実装で文字を扱うのは不可能。
whar_t使うメリットが無くなってしまった。
まあその怪我の功名で絵文字に色がつけられるようになり、肌色の違いも
対応も可能になったんだけど、これも良かったんだか悪かったんだが。
ここまで来たら絵文字以外の文字も全て色変化対応にしたらって思う
そうすりゃエスケープシーケンスなしで色を付けられるよ
もはや文字コードじゃないね
704デフォルトの名無しさん
2018/08/16(木) 10:57:13.81ID:dYP+//4M Win10 1809のコンソールはUTF-8対応
Windows Command-Line: Introducing the Windows Pseudo Console (ConPTY)
https://blogs.msdn.microsoft.com/commandline/2018/08/02/windows-command-line-introducing-the-windows-pseudo-console-conpty/
Windows Command-Line: Introducing the Windows Pseudo Console (ConPTY)
https://blogs.msdn.microsoft.com/commandline/2018/08/02/windows-command-line-introducing-the-windows-pseudo-console-conpty/
705デフォルトの名無しさん
2018/08/16(木) 11:03:08.50ID:wiNukf+g アホが頑張るとろくなことにならない
706デフォルトの名無しさん
2018/08/16(木) 20:21:21.81ID:HgLxU9xg wchar_t のこと何もわかっていないのに適当なこと言ってるな。
wchar_t は一つのプログラムで複数の文字コードを切り換えて使うための仕組みで、外部用の多バイトコードから内部文字コードに変換するのは当たり前。
char を wchar_t に書き換えるだけで済むとか誰も思っていない。そんなの言うだけ恥かしい。
大きさも規格では少なくとも 8bit で sizeof(wchar_t) >= 1 というだけ。なので 8bit でも 64 bit でも何でも良い。
windows で UTF16、linux の glibc で UTF32 を wchar_t にいれてるのは勝手にそうしてるだけで、そうしないといけないという決まりはないし、そうじゃないOSも普通にある。内部コードなので何を入れてるかはプログラマやユーザが気にする必要はない。
あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。ASCII が 7bit というのは常識レベルの知識。
wchar_t は一つのプログラムで複数の文字コードを切り換えて使うための仕組みで、外部用の多バイトコードから内部文字コードに変換するのは当たり前。
char を wchar_t に書き換えるだけで済むとか誰も思っていない。そんなの言うだけ恥かしい。
大きさも規格では少なくとも 8bit で sizeof(wchar_t) >= 1 というだけ。なので 8bit でも 64 bit でも何でも良い。
windows で UTF16、linux の glibc で UTF32 を wchar_t にいれてるのは勝手にそうしてるだけで、そうしないといけないという決まりはないし、そうじゃないOSも普通にある。内部コードなので何を入れてるかはプログラマやユーザが気にする必要はない。
あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。ASCII が 7bit というのは常識レベルの知識。
707デフォルトの名無しさん
2018/08/16(木) 21:42:21.17ID:rfZ8gqJr それで何が言いたいの?
708デフォルトの名無しさん
2018/08/16(木) 21:43:39.72ID:rfZ8gqJr 常識だし当たり前のことだから、
言ってることに間違いはないってことかな?
言ってることに間違いはないってことかな?
709デフォルトの名無しさん
2018/08/16(木) 21:50:57.04ID:VSd23G4R オレですら電子メールでは半角カナは使わないからな
710デフォルトの名無しさん
2018/08/16(木) 22:12:07.10ID:RvAH1val 今時のまともなMUAでいわゆる半角カナに対応できないものってあるかな?
fj全盛の20年前ならいざ知らず。
fj全盛の20年前ならいざ知らず。
711デフォルトの名無しさん
2018/08/16(木) 22:16:46.79ID:VSd23G4R C/C++
The C and C++ standard libraries include a number of facilities for dealing with
wide characters and strings composed of them. The wide characters are defined using
datatype wchar_t, which in the original C90 standard was defined as
"an integral type whose range of values can represent distinct codes for all
members of the largest extended character set specified among the supported
locales" (ISO 9899:1990 §4.1.5)
Both C and C++ introduced fixed-size character types char16_t and char32_t in the
2011 revisions of their respective standards to provide unambiguous representation
of 16-bit and 32-bit Unicode transformation formats, leaving wchar_t implementation-defined.
The ISO/IEC 10646:2003 Unicode standard 4.0 says that:
"The width of wchar_t is compiler-specific and can be as small as 8 bits. Consequently,
programs that need to be portable across any C or C++ compiler should not use
wchar_t for storing Unicode text. The wchar_t type is intended for storing compiler-defined
wide characters, which may be Unicode characters in some compilers."
カンペキな引用
やはりオレのレスはカンペキ
The C and C++ standard libraries include a number of facilities for dealing with
wide characters and strings composed of them. The wide characters are defined using
datatype wchar_t, which in the original C90 standard was defined as
"an integral type whose range of values can represent distinct codes for all
members of the largest extended character set specified among the supported
locales" (ISO 9899:1990 §4.1.5)
Both C and C++ introduced fixed-size character types char16_t and char32_t in the
2011 revisions of their respective standards to provide unambiguous representation
of 16-bit and 32-bit Unicode transformation formats, leaving wchar_t implementation-defined.
The ISO/IEC 10646:2003 Unicode standard 4.0 says that:
"The width of wchar_t is compiler-specific and can be as small as 8 bits. Consequently,
programs that need to be portable across any C or C++ compiler should not use
wchar_t for storing Unicode text. The wchar_t type is intended for storing compiler-defined
wide characters, which may be Unicode characters in some compilers."
カンペキな引用
やはりオレのレスはカンペキ
712デフォルトの名無しさん
2018/08/16(木) 22:23:45.92ID:VSd23G4R 会社のメールは勝手にメールに含まれる半角を全角にかえやがる
※ 必要で半角をいれてるからな
半角でフォルダ名つけるバカがいるせいで
その半角を含むパスに格納されてる資料のおいてあるパスを送ると
メール送ったあと一時期必ず文句がきてたからな
その資料にアクセスできないと
そんな場所ないと
うんざりしたから
この部分が半角ですと書いてやっても
アクセスできないと返信が来る
何度か半角でフォルダ名つけたバカを探しだして
しばいたろかと思ったわ
※ 必要で半角をいれてるからな
半角でフォルダ名つけるバカがいるせいで
その半角を含むパスに格納されてる資料のおいてあるパスを送ると
メール送ったあと一時期必ず文句がきてたからな
その資料にアクセスできないと
そんな場所ないと
うんざりしたから
この部分が半角ですと書いてやっても
アクセスできないと返信が来る
何度か半角でフォルダ名つけたバカを探しだして
しばいたろかと思ったわ
713デフォルトの名無しさん
2018/08/16(木) 22:33:35.19ID:jJkSajo2 しばくんじゃなくてフォルダ名を変更すれば済むじゃん
あんたタイムゾーンスレでずっとそういう趣旨のこと言ってるよねw
あんたタイムゾーンスレでずっとそういう趣旨のこと言ってるよねw
714デフォルトの名無しさん
2018/08/16(木) 22:38:11.04ID:VSd23G4R フォルダ名は一回変更したわ
すると突然
半角以下にあるリンクがすべてアクセスできなくって
みなが大騒ぎになったわ
そんなことやったのはだれだと
幸いオレがやったとバレずに済んだが
すると突然
半角以下にあるリンクがすべてアクセスできなくって
みなが大騒ぎになったわ
そんなことやったのはだれだと
幸いオレがやったとバレずに済んだが
715デフォルトの名無しさん
2018/08/17(金) 00:58:59.23ID:6wrElEJt 掲示板に半角カナで書くバカもいる
716デフォルトの名無しさん
2018/08/17(金) 01:01:58.63ID:6wrElEJt メールで送らなければいい
会社のメールを変えればいい
会社を変えればいい
半角君の発想だとこんな感じ
会社のメールを変えればいい
会社を変えればいい
半角君の発想だとこんな感じ
717デフォルトの名無しさん
2018/08/17(金) 02:37:02.49ID:adBXNxGj 掲示板に半角カナ使うなとか原始人かよw
718デフォルトの名無しさん
2018/08/17(金) 05:01:13.36ID:xjFqJl5K >>706
今北産業
今北産業
719デフォルトの名無しさん
2018/08/17(金) 05:32:43.08ID:DWhhxT1h >>718
そいつは勘違いしてるよ。
Linux/UnixはUTF-16などASCIIと互換性がない文字コードに
対応するのが大変だからUTF-8を作ったという話をしてるのにそれをわかってない
UTF-16に対応しようと思ったら、あちこちで使われてるcharをwchar_tに変えないといけない
printfですら使うことができない。まあ現実的に不可能だわな
最初からUnicode(UTF-16)対応として設計開発された
Windows NTとは違うわけだ
そいつは勘違いしてるよ。
Linux/UnixはUTF-16などASCIIと互換性がない文字コードに
対応するのが大変だからUTF-8を作ったという話をしてるのにそれをわかってない
UTF-16に対応しようと思ったら、あちこちで使われてるcharをwchar_tに変えないといけない
printfですら使うことができない。まあ現実的に不可能だわな
最初からUnicode(UTF-16)対応として設計開発された
Windows NTとは違うわけだ
720デフォルトの名無しさん
2018/08/17(金) 06:41:03.91ID:xjFqJl5K721デフォルトの名無しさん
2018/08/17(金) 07:06:48.04ID:p3S4iKgX 外国人は鼻ほじりながら「おまいら大変だなー」と同情してるだろうな
charで全て賄える文字文化圏が羨ましい
charで全て賄える文字文化圏が羨ましい
722デフォルトの名無しさん
2018/08/17(金) 14:32:22.25ID:qwkl5VTB >外国人は鼻ほじりながら「おまいら大変だなー」と同情してる
その手の輩も今はemojiに対応するために結局Unicodeと向き合わなくちゃならなくなってるけどな
その手の輩も今はemojiに対応するために結局Unicodeと向き合わなくちゃならなくなってるけどな
723デフォルトの名無しさん
2018/08/17(金) 17:39:37.76ID:6wrElEJt >>717
フォルダ名に半角カナ使うなとか原始人かよw
フォルダ名に半角カナ使うなとか原始人かよw
724デフォルトの名無しさん
2018/08/17(金) 17:52:36.10ID:KRgOhrj9 >>723
??
??
725デフォルトの名無しさん
2018/08/17(金) 17:57:13.67ID:RTbKyx/W バカ「半角カナを使うと文字化けするんだぞ!使うの禁止!」
それは昔メールでよく使われていたISO-2022-JPに半角カナがないのが
理由なのでSJISやEUC-JP、今の主流のUnicodeにはあてはまりません。
ISO-2022-JPでなければ半角カナ使って良いんですよ。
バカ「む、難しい言葉でごまかすな!」
それは昔メールでよく使われていたISO-2022-JPに半角カナがないのが
理由なのでSJISやEUC-JP、今の主流のUnicodeにはあてはまりません。
ISO-2022-JPでなければ半角カナ使って良いんですよ。
バカ「む、難しい言葉でごまかすな!」
726デフォルトの名無しさん
2018/08/17(金) 18:37:13.62ID:UXylYx1j わざわざ使うようなものでもないけどな
727デフォルトの名無しさん
2018/08/17(金) 20:09:50.97ID:yTcXDgUV やっぱりバカどもは
なんにもわかってないわ。。。
電子メールでいうテキストというのは
7bitだけで表現されたもんをテキストといってるワケ
つまり、伝統的にascii(7bit)だけで表現されてるデータをテキストと呼称してる
昔は、7bitのデータしかやりとりできなかったネットワークもあったからな
utf−8とかshift−jisとかな、メールでは意味不明なバイナリーなわけ
分かる?
そんなテキストもどきでも
いまでもプロトコルの規定どおり7bitのデータ以外を発信してはいけないのは当然
Content−Transfer−Encoding: 7bit ← コレは絶対だからな
utf−8やshift−jisのテキストもどきならbase64エンコードするとかしないといけない
そのままがいいならunicodeのエンコード形式でutf−7という選択肢もある
なんにもわかってないわ。。。
電子メールでいうテキストというのは
7bitだけで表現されたもんをテキストといってるワケ
つまり、伝統的にascii(7bit)だけで表現されてるデータをテキストと呼称してる
昔は、7bitのデータしかやりとりできなかったネットワークもあったからな
utf−8とかshift−jisとかな、メールでは意味不明なバイナリーなわけ
分かる?
そんなテキストもどきでも
いまでもプロトコルの規定どおり7bitのデータ以外を発信してはいけないのは当然
Content−Transfer−Encoding: 7bit ← コレは絶対だからな
utf−8やshift−jisのテキストもどきならbase64エンコードするとかしないといけない
そのままがいいならunicodeのエンコード形式でutf−7という選択肢もある
728デフォルトの名無しさん
2018/08/17(金) 20:12:42.50ID:yTcXDgUV729デフォルトの名無しさん
2018/08/17(金) 20:12:47.89ID:xjFqJl5K 今北産業
730デフォルトの名無しさん
2018/08/17(金) 20:14:07.81ID:yTcXDgUV 日本のすべてのシステムではずっとな
メールのテキスト表示まで保証されてるのはiso-2022-jpにマッピングできる文字だけだからな
iso-2022-jpにマッピングできない文字はそもそも保証されてない
※ JISにマッピングできないUnicodeやShift半角カナなんか保証してない
※ 最低でもiso-2022-jpのフォントなら日本のどのシステムにも用意できてるハズだからな
※ そうでないとテキストすら表示できない
保証されなくてもいいなら、そのままばっちいままのテキストもどきをエンコードして発信すればいいワケ
別にUTF-8、Shift_JISで送ってはいけないということはない
※ UTF-8なんかもともとエンコードされてるオクテットをさらに7bitにエンコードしてから発信することになる
わかった?
メールのテキスト表示まで保証されてるのはiso-2022-jpにマッピングできる文字だけだからな
iso-2022-jpにマッピングできない文字はそもそも保証されてない
※ JISにマッピングできないUnicodeやShift半角カナなんか保証してない
※ 最低でもiso-2022-jpのフォントなら日本のどのシステムにも用意できてるハズだからな
※ そうでないとテキストすら表示できない
保証されなくてもいいなら、そのままばっちいままのテキストもどきをエンコードして発信すればいいワケ
別にUTF-8、Shift_JISで送ってはいけないということはない
※ UTF-8なんかもともとエンコードされてるオクテットをさらに7bitにエンコードしてから発信することになる
わかった?
731デフォルトの名無しさん
2018/08/17(金) 20:17:14.05ID:yTcXDgUV 結論をいえば
受信されるシステムで最終的にそのシステム用にデコードまでできて
表示まできるのなら問題ない
それだったら受信したヤツも腹もたたない
表示できないメールもらったら腹立つだろ
デコード未対応だったり未対応形式だったりするエロ動画をしらずにダウソしてな、
そのエロ動画が再生できないのと同じぐらいの強いイラダチを感じるハズだからな
受信されるシステムで最終的にそのシステム用にデコードまでできて
表示まできるのなら問題ない
それだったら受信したヤツも腹もたたない
表示できないメールもらったら腹立つだろ
デコード未対応だったり未対応形式だったりするエロ動画をしらずにダウソしてな、
そのエロ動画が再生できないのと同じぐらいの強いイラダチを感じるハズだからな
732デフォルトの名無しさん
2018/08/17(金) 20:18:53.90ID:yTcXDgUV ホントなこの板は低学歴底辺知恵遅れのゴミクズしかいないのがよく分かるわ
> あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。
> ASCII が 7bit というのは常識レベルの知識。
ID:HgLxU9xgやオレみたいにきわめて常識的なこといってるヤツが叩かれて
しったかテキトーなこといってる低学歴底辺知恵遅れが幅をきかせてるのがこの板だからな。。。
> あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。
> ASCII が 7bit というのは常識レベルの知識。
ID:HgLxU9xgやオレみたいにきわめて常識的なこといってるヤツが叩かれて
しったかテキトーなこといってる低学歴底辺知恵遅れが幅をきかせてるのがこの板だからな。。。
733デフォルトの名無しさん
2018/08/17(金) 20:29:28.96ID:RgiGOjCt >Content−Transfer−Encoding: 7bit ← コレは絶対だからな
前世紀の遺物かよw
つかオマエ、mohtaみたいでキモいんだが。
前世紀の遺物かよw
つかオマエ、mohtaみたいでキモいんだが。
734デフォルトの名無しさん
2018/08/17(金) 20:32:13.67ID:yTcXDgUV MIME-Version: 1.0
MIME-Versionは1.0しかない
ホントな知恵遅れがいってることは
いつも意味が分からない
MIME-Versionは1.0しかない
ホントな知恵遅れがいってることは
いつも意味が分からない
735デフォルトの名無しさん
2018/08/17(金) 20:34:01.29ID:yTcXDgUV 低学歴底辺知恵遅れの世界にプロトコルなんかないからな
低学歴底辺知恵遅れドカタは
ネットワークのプログラムなんかやらないから関係ない
低学歴底辺知恵遅れドカタは
ネットワークのプログラムなんかやらないから関係ない
736デフォルトの名無しさん
2018/08/17(金) 20:37:37.32ID:yTcXDgUV 低学歴底辺知恵遅れと
まともな人間の間では
そもそも意思疎通は不可能
プロトコルがまったく違う
低学歴底辺知恵遅れ特有のプロトコルがあるらしいが
オレはそのプロトコルがまったく分からない
まともな人間の間では
そもそも意思疎通は不可能
プロトコルがまったく違う
低学歴底辺知恵遅れ特有のプロトコルがあるらしいが
オレはそのプロトコルがまったく分からない
737デフォルトの名無しさん
2018/08/17(金) 22:48:02.68ID:dUYwrsCb 氏名における「」や「𠮷」や「乭」 | yasuokaの日記 | スラド
https://srad.jp/~yasuoka/journal/623209/
読売の元の記事貼ろうと思ったらネット上には無かった……。
JIS X 0213ベースなのか?
戸籍統一文字と住基ネット文字コードの擦り合わせしたデータベースはどうするんだあれ
https://srad.jp/~yasuoka/journal/623209/
読売の元の記事貼ろうと思ったらネット上には無かった……。
JIS X 0213ベースなのか?
戸籍統一文字と住基ネット文字コードの擦り合わせしたデータベースはどうするんだあれ
738デフォルトの名無しさん
2018/08/18(土) 12:04:57.41ID:TgZCKLMK UNICODEで恥ずかしい書き込みしてた人が
大量レスでスレ流ししてるようにしか見えない
大量レスでスレ流ししてるようにしか見えない
739デフォルトの名無しさん
2018/08/18(土) 12:25:36.64ID:XOnooV72 ID:yTcXDgUV
連投してID赤くしてたら誰もレス読まないぞ
連投してID赤くしてたら誰もレス読まないぞ
740デフォルトの名無しさん
2018/08/18(土) 12:27:24.39ID:/9y7PjMS741デフォルトの名無しさん
2018/08/18(土) 12:33:47.22ID:KC80I9ck unicode の議論と wchar_t の議論を混ぜるやつは素人。
unicode が普及するすっと前から wchar_t は普通に使われてる。
unicode が普及するすっと前から wchar_t は普通に使われてる。
742デフォルトの名無しさん
2018/08/18(土) 14:13:23.54ID:5gN61dbI そりゃ使われてるかどうかで言えば使われてるだろうけど。
そんなことよりも技術的な所気にならない?
問1 16bitのwchar_tで1バイト または 3バイトのEUC-JPを
扱う場合メモリイメージはどのようになるでしょうか?
問2 32bitのwchar_tで1バイトのEUC-JPを扱う場合
メモリイメージはどのようになるでしょうか?
答えわかる?意外すぎてびっくりするよ。
そんなことよりも技術的な所気にならない?
問1 16bitのwchar_tで1バイト または 3バイトのEUC-JPを
扱う場合メモリイメージはどのようになるでしょうか?
問2 32bitのwchar_tで1バイトのEUC-JPを扱う場合
メモリイメージはどのようになるでしょうか?
答えわかる?意外すぎてびっくりするよ。
743デフォルトの名無しさん
2018/08/18(土) 14:15:44.35ID:5BnyFmRJ 16bitのwchar_tや32bitのwchar_tの使い方(エンコーディング)によるとしか
744デフォルトの名無しさん
2018/08/18(土) 14:18:12.19ID:5gN61dbI >>743
そういう答えの場合は、知ってる実装を一つだけでもいいので答えてくれればいいよ
そういう答えの場合は、知ってる実装を一つだけでもいいので答えてくれればいいよ
745デフォルトの名無しさん
2018/08/18(土) 14:33:57.87ID:KC80I9ck >>744
コンパイラとか libc を設計する奴以外は内部実装関係ないやろ。内部実装に依存したら移植性が無くなる。
知りたかったらlibcのソース嫁。最近の linux の glibc ならUCS4に統一。昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。
コンパイラとか libc を設計する奴以外は内部実装関係ないやろ。内部実装に依存したら移植性が無くなる。
知りたかったらlibcのソース嫁。最近の linux の glibc ならUCS4に統一。昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。
746デフォルトの名無しさん
2018/08/18(土) 14:42:51.01ID:5gN61dbI > 昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。
それはwchar_tが32bitってことかな?
16bitでは不可能だよね?
それはwchar_tが32bitってことかな?
16bitでは不可能だよね?
747デフォルトの名無しさん
2018/08/18(土) 14:48:48.76ID:/4eOy7p1 wchar_t自体はcharset/encoding独立だとしても、実際にEUC-JPを格納する実装が
存在していたとは知らなかったな。
存在していたとは知らなかったな。
748デフォルトの名無しさん
2018/08/18(土) 14:55:58.85ID:KC80I9ck >>746
知らないなら、変な知ったかぶりせずに黙ってるべき。
実装によって色々差があるけど最上位ビットとかをフラグに使用して16ビットに詰め込んでたんだよ。
うろ覚えだけど、例えば
0021-007e に ascii
00a1-00fe に jis kana
2121-7e7e に 0208
a1a1-fefe に 0212
とか、そんな感じ。
知らないなら、変な知ったかぶりせずに黙ってるべき。
実装によって色々差があるけど最上位ビットとかをフラグに使用して16ビットに詰め込んでたんだよ。
うろ覚えだけど、例えば
0021-007e に ascii
00a1-00fe に jis kana
2121-7e7e に 0208
a1a1-fefe に 0212
とか、そんな感じ。
749デフォルトの名無しさん
2018/08/18(土) 15:23:20.80ID:bNUWoVQ1 やけに wchar_t にこだわる(かみつく)奴がいるけど理由がわからん
内部がどういうエンコーディングかはプログラマは意識する必要ないのに
内部がどういうエンコーディングかはプログラマは意識する必要ないのに
750デフォルトの名無しさん
2018/08/18(土) 15:32:18.21ID:KC80I9ck >>747
16ビットでなくて 32ビットで良いなら、今でも FreeBSD は EUC-JP をそのまま wchar_t に入れてる。
32bit なのでフラグ操作とかもなくて生のまま 0x008fa2be とか 0x00008ea0 とか。
16ビットでなくて 32ビットで良いなら、今でも FreeBSD は EUC-JP をそのまま wchar_t に入れてる。
32bit なのでフラグ操作とかもなくて生のまま 0x008fa2be とか 0x00008ea0 とか。
751デフォルトの名無しさん
2018/08/18(土) 16:04:03.91ID:M4v7ary7 低学歴低知能のククソニートどもや底辺ドカタどもは
自分がどんだけ知恵遅れなこと書いてるのか
なかったことにししてる
サマータイムスレでも同じだからな
コイツラ
自分がどんだけ知恵遅れなこと書いてるのか
なかったことにししてる
サマータイムスレでも同じだからな
コイツラ
752デフォルトの名無しさん
2018/08/18(土) 19:02:32.17ID:IyhzoKxX753デフォルトの名無しさん
2018/08/21(火) 10:01:44.15ID:O500W7m7 RFC 8369 - Internationalizing IPv6 Using 128-Bit Unicode
https://tools.ietf.org/html/rfc8369
https://tools.ietf.org/html/rfc8369
754デフォルトの名無しさん
2018/08/21(火) 14:20:52.24ID:avvvfppX あれだろうなと確認したらやはりあれだった
755デフォルトの名無しさん
2018/08/21(火) 14:31:10.12ID:Y1HyydAv ああ、アレだな
756デフォルトの名無しさん
2018/08/21(火) 15:54:58.52ID:R5Y2p11o あれだよねあれ。あれ安くて美味しいよね
757デフォルトの名無しさん
2018/08/21(火) 15:56:11.80ID:dhW5/kUC え?ハトが?
758デフォルトの名無しさん
2018/08/24(金) 18:18:47.09ID:mVdVBkdF すいません 文字コードについて教えてほしいことがあります マジものの初心者なんですがどうかおねがいします
Unicodeの一種(?)で65280文字ある種類のものを、なんと呼ぶのでしょうか。
(最初の方は透明に見えるフォントで始まり、最後の方は全角英数などが割り当てられています
http://www.m-hoz.com/jsp/unicode.jsp?Bgn=0&End=65536
このページと想定しているものはまったく同じです)
WikipediaなどでUnicodeの記事を読んだのですが、バージョンや面やサブセットなどたくさんの種類があり
私が利用したいと思っている65280文字を含むUnicodeの一集合のことをなんと呼べばいいのか分かりませんでした。
というか 正直、Unicodeというのは65280文字(0xFFFF番目ですから)までしかないものと思っていましたが
なんかそれを遥かに凌ぐ量の文字が収録されていると書いてあり 余計に混乱してしまいました
文字コードに関する知識がほとんどなく おかしい文章になってしまいすいません よろしくおねがいします。
Unicodeの一種(?)で65280文字ある種類のものを、なんと呼ぶのでしょうか。
(最初の方は透明に見えるフォントで始まり、最後の方は全角英数などが割り当てられています
http://www.m-hoz.com/jsp/unicode.jsp?Bgn=0&End=65536
このページと想定しているものはまったく同じです)
WikipediaなどでUnicodeの記事を読んだのですが、バージョンや面やサブセットなどたくさんの種類があり
私が利用したいと思っている65280文字を含むUnicodeの一集合のことをなんと呼べばいいのか分かりませんでした。
というか 正直、Unicodeというのは65280文字(0xFFFF番目ですから)までしかないものと思っていましたが
なんかそれを遥かに凌ぐ量の文字が収録されていると書いてあり 余計に混乱してしまいました
文字コードに関する知識がほとんどなく おかしい文章になってしまいすいません よろしくおねがいします。
759デフォルトの名無しさん
2018/08/24(金) 18:42:02.68ID:NFTQhSIK 65536-256
760デフォルトの名無しさん
2018/08/24(金) 18:46:30.51ID:qhlQ/zrJ >>758
正直なところ何を言いたいのか理解できないのだが、Unicode で定義されている文字なら公式サイトで全部見られるよ。
Code Charts
http://unicode.org/charts/
正直なところ何を言いたいのか理解できないのだが、Unicode で定義されている文字なら公式サイトで全部見られるよ。
Code Charts
http://unicode.org/charts/
761デフォルトの名無しさん
2018/08/24(金) 19:19:57.24ID:wXpFbMeR >>758
基本多言語面
https://ja.wikipedia.org/wiki/%E9%9D%A2_(%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89)#%E5%9F%BA%E6%9C%AC%E5%A4%9A%E8%A8%80%E8%AA%9E%E9%9D%A2
Unicodeは似てる文字を一つにまとめて約6万5000文字(16bit)に収めるぞーって
言っていたのが、案の定無理だと破綻し(だから言っただろうがバカメリケンが)、
21bitを使い最大で約111万文字収録可能になってる
最新のUnicode 11.0 では13万7439文字が収録されてる
基本多言語面
https://ja.wikipedia.org/wiki/%E9%9D%A2_(%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89)#%E5%9F%BA%E6%9C%AC%E5%A4%9A%E8%A8%80%E8%AA%9E%E9%9D%A2
Unicodeは似てる文字を一つにまとめて約6万5000文字(16bit)に収めるぞーって
言っていたのが、案の定無理だと破綻し(だから言っただろうがバカメリケンが)、
21bitを使い最大で約111万文字収録可能になってる
最新のUnicode 11.0 では13万7439文字が収録されてる
762デフォルトの名無しさん
2018/08/24(金) 19:24:24.02ID:wXpFbMeR Unicodeはもはや文字コードじゃない
文字シーケンスというべきだろう
複数の文字を使って1文字を表している
文字シーケンスというべきだろう
複数の文字を使って1文字を表している
763デフォルトの名無しさん
2018/08/24(金) 20:11:02.68ID:mVdVBkdF >>761
「基本多言語面」
ありがとうございます! すみません。言い方がボケナスで余計な労力をお掛けしました。
この言葉が知りたかったのです。
ちなみに極めてどうでもいいことですが
マインクラフトというゲームのフォントを変えたいと思っており
その為のフォントおよび文字コードの勉強していこうとしていたところでした。
「基本多言語面」
ありがとうございます! すみません。言い方がボケナスで余計な労力をお掛けしました。
この言葉が知りたかったのです。
ちなみに極めてどうでもいいことですが
マインクラフトというゲームのフォントを変えたいと思っており
その為のフォントおよび文字コードの勉強していこうとしていたところでした。
764デフォルトの名無しさん
2018/08/25(土) 06:50:31.16ID:gxBSyOuw HTML のフォント指定は、こういう感じ。
「html フォント指定」で検索!
HTMLの文字コードは、UTF-8
<font face="候補1,候補2,候補3">フォントを変更します</font>
<p><font face="MS P明朝,MS 明朝">これは明朝体を指定</font></p>
それとも、マインクラフトはHTMLじゃないのか?
「html フォント指定」で検索!
HTMLの文字コードは、UTF-8
<font face="候補1,候補2,候補3">フォントを変更します</font>
<p><font face="MS P明朝,MS 明朝">これは明朝体を指定</font></p>
それとも、マインクラフトはHTMLじゃないのか?
765デフォルトの名無しさん
2018/08/25(土) 07:11:24.89ID:5ar3I1wr >>762
合字はそうすることが自然だからそうなってるんだと思ってるんだけど、全部個別に文字コードを割り当てたほうがいいってこと?
合字はそうすることが自然だからそうなってるんだと思ってるんだけど、全部個別に文字コードを割り当てたほうがいいってこと?
766デフォルトの名無しさん
2018/08/25(土) 09:10:13.50ID:2/0/KxdV >>764
マインクラフトのフォントは
./assets/minecraft/textures/font
というディレクトリに16ドットフォントが16列16行配置されたPNG形式の画像が0xFF枚格納されてる
というような仕様になってますね
HTMLはあんまり関係ないです。
マインクラフトのフォントは
./assets/minecraft/textures/font
というディレクトリに16ドットフォントが16列16行配置されたPNG形式の画像が0xFF枚格納されてる
というような仕様になってますね
HTMLはあんまり関係ないです。
767デフォルトの名無しさん
2018/09/07(金) 14:01:42.05ID:NnTKHa0h ♥
768デフォルトの名無しさん
2018/09/10(月) 17:53:51.80ID:wWJP5KoS Unicodeの公式サイト(http://unicode.org/)で,Unicodeの最新安定バージョンがなにかを調べるにはどこを見ればいいんですかね。
今11.0だそうですが,他サイトの情報なので,なるべく本家本元の情報が欲しいんです。
今11.0だそうですが,他サイトの情報なので,なるべく本家本元の情報が欲しいんです。
769デフォルトの名無しさん
2018/09/10(月) 19:07:05.53ID:Xr++yj7Q >>768
ちゃんとメニューを見よう。
サイトの左側のメニューから The Unicode Standard プルダウンの中にある Latest Version を選べばよい。
というわけで、現時点では 11.0 が最新という認識で正解です。
ちゃんとメニューを見よう。
サイトの左側のメニューから The Unicode Standard プルダウンの中にある Latest Version を選べばよい。
というわけで、現時点では 11.0 が最新という認識で正解です。
770デフォルトの名無しさん
2018/09/11(火) 03:10:58.81ID:zLtJmO+E771デフォルトの名無しさん
2018/09/12(水) 15:59:00.59ID:DAmcAY4y Unicodeって,なんで初めに多バイト文字のことを考えなかったんだろう。
そもそも多バイト文字を統一するために設立したようなもんなんだから,
2^16では済まないことくらい予測できた筈なのにね
そもそも多バイト文字を統一するために設立したようなもんなんだから,
2^16では済まないことくらい予測できた筈なのにね
772デフォルトの名無しさん
2018/09/12(水) 16:00:08.88ID:3JFFS4nO The Unicode Blog: New Japanese Era
http://blog.unicode.org/2018/09/new-japanese-era.html
Unicodeの方でも記事になってたのか。
http://blog.unicode.org/2018/09/new-japanese-era.html
Unicodeの方でも記事になってたのか。
773デフォルトの名無しさん
2018/09/12(水) 16:39:35.87ID:1j3hWxX7774デフォルトの名無しさん
2018/09/12(水) 17:33:44.29ID:lrlSblfi775デフォルトの名無しさん
2018/09/12(水) 22:23:14.60ID:DAmcAY4y >>774
まあ正直,日本人でも特段勉強してなかったらそういう感覚やろうしな
まあ正直,日本人でも特段勉強してなかったらそういう感覚やろうしな
776デフォルトの名無しさん
2018/09/12(水) 22:25:38.00ID:yfKtIfo2 で、バカは5マンの漢字全部読めるの?
で、バカは5マンの漢字全部書けるの?
で、バカは5マンの漢字全部使えるの?
で、バカは5マンの漢字全部使ってるの?
で、バカは5マンの漢字全部書けるの?
で、バカは5マンの漢字全部使えるの?
で、バカは5マンの漢字全部使ってるの?
777デフォルトの名無しさん
2018/09/12(水) 22:30:26.22ID:yfKtIfo2 卜部の卜
トナカイの卜
見た目でも違いなんかまったくわからない
トナカイの卜
見た目でも違いなんかまったくわからない
778デフォルトの名無しさん
2018/09/13(木) 02:31:52.28ID:cMp+qWRQ でもコンピュータに合わせて世界を
作り変えることができるなら、
65535文字に抑えるだろうな
サマータイムもない世の中
文字も16進数が基本かな
電気の流れもマイナスからプラスへだ
作り変えることができるなら、
65535文字に抑えるだろうな
サマータイムもない世の中
文字も16進数が基本かな
電気の流れもマイナスからプラスへだ
779デフォルトの名無しさん
2018/09/13(木) 08:51:11.89ID:wI3BpnoI 君が代によれば、天皇の世は八千代続くので、
元号の合字も8000個必要になる。
Unicodeのどこかの面にまとめて確保できないものだろうか。
元号の合字も8000個必要になる。
Unicodeのどこかの面にまとめて確保できないものだろうか。
780デフォルトの名無しさん
2018/09/13(木) 09:03:45.21ID:1sKEH3Wo781デフォルトの名無しさん
2018/09/13(木) 09:54:19.07ID:l9KSlvFS >>774
宇宙人と交信する予定は無かったのか
宇宙人と交信する予定は無かったのか
782デフォルトの名無しさん
2018/09/13(木) 09:56:12.02ID:l9KSlvFS >電気の流れもマイナスからプラスへだ
これいつかやっても良いと思うけど
どこにどんな影響が出るんやろね
数学の外積の定義とかも変えたくなりそう
これいつかやっても良いと思うけど
どこにどんな影響が出るんやろね
数学の外積の定義とかも変えたくなりそう
783デフォルトの名無しさん
2018/09/13(木) 16:01:34.38ID:Mtznb6SP >>782
電子がマイナスからプラスへと流れると電流がプラスからマイナスへ流れるという理解で問題ない
電子がマイナスからプラスへと流れると電流がプラスからマイナスへ流れるという理解で問題ない
784デフォルトの名無しさん
2018/09/13(木) 17:09:43.69ID:1sKEH3Wo 数字が連続してない符号化文字集合ってあるのかな。
EBCDICとかは英語が連続してないことで有名だけど。
EBCDICとかは英語が連続してないことで有名だけど。
785デフォルトの名無しさん
2018/09/13(木) 19:23:35.05ID:U1nKZv8x C言語の規格で'0'から'9'は連続していることになってたと思うから
そうじゃない文字コードがあったとしてもとっくに淘汰されてるのでは
そうじゃない文字コードがあったとしてもとっくに淘汰されてるのでは
786デフォルトの名無しさん
2018/09/13(木) 19:34:24.00ID:l9KSlvFS どうせ文字集合じゃねーって言われるけど
漢数字
漢数字
787デフォルトの名無しさん
2018/09/13(木) 19:47:56.84ID:QXoXnqLA 0〜9は世界共通文字
どの国でも同じ文字が使える
どの国でも同じ文字が使える
788デフォルトの名無しさん
2018/09/13(木) 20:25:28.42ID:U1nKZv8x 世界共通になる前に6と9のどちらかを変更しておいて欲しかった
789デフォルトの名無しさん
2018/09/13(木) 21:10:29.13ID:1sKEH3Wo790デフォルトの名無しさん
2018/09/13(木) 21:35:44.08ID:1sKEH3Wo 漢数字がそれが表わす数字順に並ばないって結構有名だったのか……恥かしい
791デフォルトの名無しさん
2018/09/14(金) 06:35:40.18ID:gu26jl1+792デフォルトの名無しさん
2018/09/14(金) 07:22:37.60ID:jXQgdfuV793デフォルトの名無しさん
2018/09/14(金) 12:40:21.98ID:5xDSXwp0 >>788
RとЯ
RとЯ
794デフォルトの名無しさん
2018/09/14(金) 15:58:06.01ID:V0YFlSa+ 1960年代1970年代では、
コーディングシート上で「O(オー)」」と「0(ゼロ9)とを
区別するために
Fortranは「「O(オー)」の上に傍線を書いたし、
COBOLでは、「0(ゼロ)」に斜線を引いて区別
してたような気がする。
「I(あい)」と「1(いち)」の場合は、「I(アイ)」を
小文字の「i」を使っていたような気がする。
なにぶん、古い話なので、間違っているかもしれないが
一応参考までに
コーディングシート上で「O(オー)」」と「0(ゼロ9)とを
区別するために
Fortranは「「O(オー)」の上に傍線を書いたし、
COBOLでは、「0(ゼロ)」に斜線を引いて区別
してたような気がする。
「I(あい)」と「1(いち)」の場合は、「I(アイ)」を
小文字の「i」を使っていたような気がする。
なにぶん、古い話なので、間違っているかもしれないが
一応参考までに
795デフォルトの名無しさん
2018/09/14(金) 16:10:40.01ID:cGEdpT46 斜線入りの0
VS使ってU+0030 U+FE00で表せるように
なってたんだな。
VS使ってU+0030 U+FE00で表せるように
なってたんだな。
796デフォルトの名無しさん
2018/09/14(金) 16:32:11.43ID:jXQgdfuV797デフォルトの名無しさん
2018/09/14(金) 18:22:58.68ID:q3l06dS7 まーーた「異字体」という概念を欧米のやつらがめちゃめちゃにしやがったな
798デフォルトの名無しさん
2018/09/14(金) 19:03:02.27ID:YqXme0/t799デフォルトの名無しさん
2018/09/14(金) 19:03:15.35ID:TqoCD1dQ Unicodeをめちゃくちゃにしてるのは大昔の馬鹿な中国人
800デフォルトの名無しさん
2018/09/14(金) 21:49:17.28ID:J5fDz/kR 斜線入りゼロの全角版もU+FF10 U+FE00で規定しようとしてるな。
もうアホかと。
もうアホかと。
801デフォルトの名無しさん
2018/09/14(金) 22:09:46.77ID:zZtMiOUI あーあもうめちゃくちゃだよ…
802デフォルトの名無しさん
2018/09/14(金) 22:50:34.15ID:G7suMYm4 21bitも使わせるからそんな浪費するんだよ。16bitで我慢させておくべきだった。
803デフォルトの名無しさん
2018/09/15(土) 00:35:10.02ID:RLWLi0Yo 多コードポイント文字(←?)なのでビット数関係ない
むしろ、16bitに詰め込むために合成やVS、ZWJのような小細工が作られてしまって
それが乱用されてる
むしろ、16bitに詰め込むために合成やVS、ZWJのような小細工が作られてしまって
それが乱用されてる
804デフォルトの名無しさん
2018/09/15(土) 00:49:16.31ID:KIanXBkQ UCS-4でコードポイントで利用できる領域は21bitまでときまってる
コードのレンジはMSBを除く31bitまで
コードポイントのビット数とエンコードのビット数は関係ない
相変わらず低学歴知恵遅れは
意味不明なことばっかりいう
コードのレンジはMSBを除く31bitまで
コードポイントのビット数とエンコードのビット数は関係ない
相変わらず低学歴知恵遅れは
意味不明なことばっかりいう
805デフォルトの名無しさん
2018/09/15(土) 08:00:03.75ID:JGlclHBn806デフォルトの名無しさん
2018/09/15(土) 10:09:57.93ID:RLWLi0Yo お、おう……ありがとう
「誰一人エンコーディングの話はしてねーだろ幻視かそれともセレクタ知らんのか」ぐらいは書こうとしたんだが
「誰一人エンコーディングの話はしてねーだろ幻視かそれともセレクタ知らんのか」ぐらいは書こうとしたんだが
807デフォルトの名無しさん
2018/09/16(日) 22:47:16.05ID:R5KpyTLY >>796
U+0030 U+FE00は標準化されてるけどU+0030 U+0338の方はそうじゃない
スラッシュ0っぽいものになるかもしれないという程度
あとVSは検索時には無視されるんで0030と等価になる
U+0030 U+FE00は標準化されてるけどU+0030 U+0338の方はそうじゃない
スラッシュ0っぽいものになるかもしれないという程度
あとVSは検索時には無視されるんで0030と等価になる
808デフォルトの名無しさん
2018/09/18(火) 13:57:58.92ID:5qlr0JT7 >>807
従来のやり方に合わせるとU+0030 U+0338に対応するNFC形式を用意して検索は互換分解で対応ってならね?
逆にVSを検索時無視するという仕様を活用するなら、互換分解よりもそっちが良かったって文字が他に沢山ない?
まあ、今更言ってもなんだ
従来のやり方に合わせるとU+0030 U+0338に対応するNFC形式を用意して検索は互換分解で対応ってならね?
逆にVSを検索時無視するという仕様を活用するなら、互換分解よりもそっちが良かったって文字が他に沢山ない?
まあ、今更言ってもなんだ
809デフォルトの名無しさん
2018/09/18(火) 13:58:59.04ID:5qlr0JT7 訂正、合成文字の方が先だからU+0338 U+0030
810デフォルトの名無しさん
2018/09/18(火) 22:20:07.57ID:rWjVnVL/ なんで混同している人がいるのかえあからないけど合字と変種は別のものだよ。
合字はもとの文字と別物として扱われるのに対して、変種はあくまで同じ文字の字形違い。
合字はもとの文字と別物として扱われるのに対して、変種はあくまで同じ文字の字形違い。
811デフォルトの名無しさん
2018/09/21(金) 03:58:13.13ID:dtC8HZuo すいません
「�����������d」
という文字列を解読したいです。
$ echo '<当該文字列>' | od -A xn -t x1
の結果は
000000 ef bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef
000010 bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef bf
000020 bd 64
のような感じです。
個人的には\0x0eや\0x0fが多く登場しているのでUTF-16あたりをUTF-8で解釈しているのかなとも思いまして
iconv(1)などでどうにかしようとしました(iconv -c -f utf16 -t utf8)が 駄目でした。
どうかよろしくおねがいします。
「�����������d」
という文字列を解読したいです。
$ echo '<当該文字列>' | od -A xn -t x1
の結果は
000000 ef bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef
000010 bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef bf
000020 bd 64
のような感じです。
個人的には\0x0eや\0x0fが多く登場しているのでUTF-16あたりをUTF-8で解釈しているのかなとも思いまして
iconv(1)などでどうにかしようとしました(iconv -c -f utf16 -t utf8)が 駄目でした。
どうかよろしくおねがいします。
812デフォルトの名無しさん
2018/09/21(金) 06:10:45.73ID:v8LFlyn0 >>811
無理です
無理です
813デフォルトの名無しさん
2018/09/21(金) 08:54:48.61ID:YSf5+rmt814デフォルトの名無しさん
2018/09/21(金) 16:14:43.03ID:dtC8HZuo >>813
なるほど。復元は無理ってことですね。thx
なるほど。復元は無理ってことですね。thx
815デフォルトの名無しさん
2018/09/21(金) 22:27:01.36ID:VETs/R35 URLエンコードとか16進文字列で表示してほしいよね。
文字化け文字列を表示されても途方に暮れる。
文字化け文字列を表示されても途方に暮れる。
816デフォルトの名無しさん
2018/09/22(土) 12:49:11.01ID:xOVRbYWf >>815
表示したい文字とそれ以外をどうやって区別させる?
表示したい文字とそれ以外をどうやって区別させる?
817デフォルトの名無しさん
2018/09/22(土) 13:55:53.33ID:PGp2AKzL 低学歴知恵遅れの世界ではグリフが違うように見えれば
その字じたいがもつ意味もかわる
その字じたいがもつ意味もかわる
818デフォルトの名無しさん
2018/09/22(土) 16:15:38.71ID:lyt/iYyi φと Φ の小さい字が小文字 ɸ だと一緒のはずなんだが環境によって違うのが困る unicode のくせに
819デフォルトの名無しさん
2018/09/23(日) 04:36:37.16ID:D4/zD5nR https://github.com/JuliaStrings/utf8proc
これすばらしいね。
UTF8の煩雑な処理がC89という極めて汎用で互換性の高い言語で扱えるなんて。
ただUnicode11対応を謳ってる割には曖昧文字幅が考慮されてないのが難点
issueやPRを見てるとそれっぽい対応がされてるのかどうなのか……。
https://github.com/JuliaStrings/utf8proc/pull/83 👀
Rock54: Caution(BBR-MD5:1341adc37120578f18dba9451e6c8c3b)
これすばらしいね。
UTF8の煩雑な処理がC89という極めて汎用で互換性の高い言語で扱えるなんて。
ただUnicode11対応を謳ってる割には曖昧文字幅が考慮されてないのが難点
issueやPRを見てるとそれっぽい対応がされてるのかどうなのか……。
https://github.com/JuliaStrings/utf8proc/pull/83 👀
Rock54: Caution(BBR-MD5:1341adc37120578f18dba9451e6c8c3b)
820デフォルトの名無しさん
2018/09/23(日) 13:00:23.58ID:7oyGtio1821デフォルトの名無しさん
2018/09/25(火) 01:23:30.21ID:lmrEE7TE https://www.softek.co.jp/SPG/Pgi/performance52.html
ここのページのエンコーディングって分かる?
EUC-JPで読みこむと漢字だらけ
Shift JISで読みこむと半角カナの「ス」だらけ
UTF-8で読みこむと非文字だらけ
ここのページのエンコーディングって分かる?
EUC-JPで読みこむと漢字だらけ
Shift JISで読みこむと半角カナの「ス」だらけ
UTF-8で読みこむと非文字だらけ
822デフォルトの名無しさん
2018/09/25(火) 11:23:08.18ID:Ldj267OX chrome で開いたけど問題なく日本語出るぞ
おまいのブラウザが糞なんじゃね
ブラウザ経由せずに python でダウソしたら中身 UTF-8 のファイルが出来た
<META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
EUC-JP ってことになってるな
おまいのブラウザが糞なんじゃね
ブラウザ経由せずに python でダウソしたら中身 UTF-8 のファイルが出来た
<META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
EUC-JP ってことになってるな
823デフォルトの名無しさん
2018/09/25(火) 12:50:25.51ID:lmrEE7TE やっぱFirefoxはゴミですね
824デフォルトの名無しさん
2018/09/25(火) 13:50:17.89ID:O6wzDQwM そのサイトうちのffタソは普通に日本語出してる
825デフォルトの名無しさん
2018/09/25(火) 15:39:49.76ID:po7dXpcK 夜に見たときはFirefoxでもChromiumでもWaterfoxでも
ID:lmrEE7TEが言うような文字化けになってたけど
今はFirefoxでもChromiumでもWaterfoxでも文字化けせずに見られる
そのサイトのほうがおかしくなってたんじゃないか?
ID:lmrEE7TEが言うような文字化けになってたけど
今はFirefoxでもChromiumでもWaterfoxでも文字化けせずに見られる
そのサイトのほうがおかしくなってたんじゃないか?
826デフォルトの名無しさん
2018/09/25(火) 15:45:45.33ID:O6wzDQwM apacheとかデフォでutf-8に強制変更とかあるからな
827デフォルトの名無しさん
2018/09/25(火) 16:40:21.10ID:hDTNQGQ/828デフォルトの名無しさん
2018/09/25(火) 16:45:52.15ID:EqDfiqim 奇遇ですね
私もちょうど昨日そのサイト見てました
私もちょうど昨日そのサイト見てました
829デフォルトの名無しさん
2018/09/25(火) 17:23:14.79ID:lmrEE7TE あっっれ。
まさかなと思ってもう一度行ったら なんかちゃんと読めるようになってたわ。
うーん。向こうの不具合かな。とりあえずFirefoxに濡れ衣を着せてしまったことをお詫びします。
ただしFirefoxには
http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.html
↑このページが読めないという前科があるんだよね。
まさかなと思ってもう一度行ったら なんかちゃんと読めるようになってたわ。
うーん。向こうの不具合かな。とりあえずFirefoxに濡れ衣を着せてしまったことをお詫びします。
ただしFirefoxには
http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.html
↑このページが読めないという前科があるんだよね。
830デフォルトの名無しさん
2018/09/25(火) 17:33:32.27ID:EqDfiqim 最近のブラウザは一時的に文字コード指定するメニュー無くなった
831デフォルトの名無しさん
2018/09/25(火) 17:41:54.78ID:UWcApuPo832デフォルトの名無しさん
2018/09/25(火) 18:07:13.36ID:po7dXpcK http://www.am.ics.keio.ac.jp/~keisuke/lab/ptex218.htmlは
WaterfoxやChromiumでも文字化けする
Waterfoxだと文字コードの手動切り替えで対応できるけど
自動判定できない状況に陥っているのだからサイト側の問題なんだろうね
WaterfoxやChromiumでも文字化けする
Waterfoxだと文字コードの手動切り替えで対応できるけど
自動判定できない状況に陥っているのだからサイト側の問題なんだろうね
833デフォルトの名無しさん
2018/09/25(火) 18:35:00.27ID:EqDfiqim HTTPはheaderみてそっち優先のブラウザばっかになってつまらんぬ
834デフォルトの名無しさん
2018/09/25(火) 18:40:37.62ID:YBMAwOu6 そういえば、昔おまじない文字ってあったよな
「京」とか
「京」とか
835デフォルトの名無しさん
2018/09/25(火) 19:00:03.09ID:lmrEE7TE だいたい日本語TeXを使ってるのなら文字コードに関する知識はそれなりにある筈なんだけどなぁ
836デフォルトの名無しさん
2018/09/25(火) 19:01:52.45ID:EqDfiqim >>834
美乳
美乳
837デフォルトの名無しさん
2018/09/25(火) 23:09:37.69ID:dH/9GcKQ838デフォルトの名無しさん
2018/10/01(月) 00:48:09.88ID:MJnLVykJ これってよくあるよな
839デフォルトの名無しさん
2018/10/01(月) 06:54:49.15ID:lrLCBstk なにが?
840デフォルトの名無しさん
2018/10/01(月) 09:18:19.81ID:CSe7Ol42 サーバーが余計なこといってるやつ
841デフォルトの名無しさん
2018/10/02(火) 15:20:38.65ID:YIYqcJyy RedHat や CentOS のパッケージで Apache をインストールするとデフォルトで AddDefaultCharset UTF-8 が有効になっているのが原因。
この設定をコメントアウトし忘れると今回のようなことが起きてしまう。
これ、わりと迷惑度合いの高いデフォルト設定なんだよねえ……
この設定をコメントアウトし忘れると今回のようなことが起きてしまう。
これ、わりと迷惑度合いの高いデフォルト設定なんだよねえ……
842デフォルトの名無しさん
2018/10/02(火) 15:47:12.77ID:yDKwoLm6 何を今更
843デフォルトの名無しさん
2018/10/03(水) 08:04:57.07ID:ej0n10jM UTF-8デフォルトはそれこそLinux機にとっては嬉しいんだけどねぇ
ちなみにnghttp2というHTTP/2に特化したWebサーバーは
HTTP/2の既定エンコーディングがUTF-8であるにもかかわらずなんとASCII。
いつの時代だよ……。しかも古いプロジェクトじゃなくてめっちゃ新しいのに……。
ちなみにnghttp2というHTTP/2に特化したWebサーバーは
HTTP/2の既定エンコーディングがUTF-8であるにもかかわらずなんとASCII。
いつの時代だよ……。しかも古いプロジェクトじゃなくてめっちゃ新しいのに……。
844デフォルトの名無しさん
2018/10/09(火) 21:29:38.61ID:cJ7fFqob 最近またUnicodeが分からなくなってしまった。
単にShift_JISのような
「一部コードを拡張マップ専用の文字にして後続のコードを
その拡張マップ専用の文字のコードと連続した(つまり2次元的な配置の)コードとして
処理する」
っていう方法ではないのか。
単にShift_JISのような
「一部コードを拡張マップ専用の文字にして後続のコードを
その拡張マップ専用の文字のコードと連続した(つまり2次元的な配置の)コードとして
処理する」
っていう方法ではないのか。
845デフォルトの名無しさん
2018/10/10(水) 01:30:32.33ID:cxHjn/W/ 違う
846デフォルトの名無しさん
2018/10/10(水) 02:38:09.95ID:cuDZW5pF サロゲートペアの話?
847デフォルトの名無しさん
2018/10/10(水) 16:28:58.28ID:WmZeX0g1 ISOのダウンロードサイトがもう何年も
本文はちゃんとcharset=ISO-8859-1だと書いてるのに
HTTPヘッダでcharset=UTF-8宣言してて台無しになってる。
ASCIIはいいけどフランス語のとこがずっと文字化けしてるんだけど誰も気付かないのかね。
……と書き込もうと思って確認したらいつの間にか直ってたわ、ちっ
本文はちゃんとcharset=ISO-8859-1だと書いてるのに
HTTPヘッダでcharset=UTF-8宣言してて台無しになってる。
ASCIIはいいけどフランス語のとこがずっと文字化けしてるんだけど誰も気付かないのかね。
……と書き込もうと思って確認したらいつの間にか直ってたわ、ちっ
848デフォルトの名無しさん
2018/10/15(月) 00:47:51.51ID:FbFcpKzK 実際に使用されていた、おもしろい文字コードとかない?
例えばBaudot Codeは英数字がバラバラの順番で出現する、非直感的な配置になってる。
例えばBaudot Codeは英数字がバラバラの順番で出現する、非直感的な配置になってる。
849デフォルトの名無しさん
2018/10/15(月) 04:39:56.62ID:/DZZgAIK EBSDICのことか
850デフォルトの名無しさん
2018/10/15(月) 04:40:51.83ID:/DZZgAIK EBCDICだったすまそ
851デフォルトの名無しさん
2018/10/16(火) 14:17:09.82ID:lPgoIDQ1 Apple、「ベーグル」の絵文字にクリームチーズを追加──要望を受け
http://www.itmedia.co.jp/news/articles/1810/16/news086.html
http://www.itmedia.co.jp/news/articles/1810/16/news086.html
852デフォルトの名無しさん
2018/10/16(火) 21:00:39.00ID:+1MBTbsX IEC646を使う事ももやめてUS-ASCIIに統一した方がいいよな。
それで問題が起きる時はフォントの方を変えて対処すればいい
それで問題が起きる時はフォントの方を変えて対処すればいい
853デフォルトの名無しさん
2018/10/16(火) 22:29:11.24ID:xkS5MTi4 絵文字はどんどん規格にない不文律が増えていくんだな
855デフォルトの名無しさん
2018/10/18(木) 09:37:48.19ID:9Pcdnt1S >>854
Google Japan Blog: 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ
https://japan.googleblog.com/2008/11/blog-post_27.html
Google Japan Blog: 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ
https://japan.googleblog.com/2008/11/blog-post_27.html
856デフォルトの名無しさん
2018/10/21(日) 02:11:42.72ID:fBvnF/D1 つまり結局のところどうしたらええんじゃ?
857デフォルトの名無しさん
2018/10/21(日) 11:20:10.64ID:sjXodBVw 見
858デフォルトの名無しさん
2018/10/21(日) 21:31:47.23ID:8BH3p2hm https://en.wikipedia.org/wiki/Template:Smiley
ここの絵文字のソースコードを見ると<abbr>要素を使ってマークアップしてるんだけど
こういうのって一般的なのかな。
ここの絵文字のソースコードを見ると<abbr>要素を使ってマークアップしてるんだけど
こういうのって一般的なのかな。
859デフォルトの名無しさん
2018/10/21(日) 23:19:14.44ID:j+lXdzx1 Wikipediaはある種独特じゃね
860デフォルトの名無しさん
2018/10/29(月) 01:00:18.66ID:OPK1oA4w https://s.codepen.io/aardrian/debug/ENJdjN
ここでは
<span role="img" aria-label="Snowman">☃</span>
としてるね
ここでは
<span role="img" aria-label="Snowman">☃</span>
としてるね
861デフォルトの名無しさん
2018/10/29(月) 11:18:13.71ID:rTl7m6mf ☃
862デフォルトの名無しさん
2018/10/29(月) 12:04:33.69ID:oLCvh0eX マルチバイト文字を2つのシングルバイト文字で囲いたい場合
マルチバイト文字の中にそのシングルバイト文字があった場合、囲えないんですけど
マルチバイト文字を理解しないで囲うにはどうしたらいいですか?
マルチバイト文字の中にそのシングルバイト文字があった場合、囲えないんですけど
マルチバイト文字を理解しないで囲うにはどうしたらいいですか?
863デフォルトの名無しさん
2018/10/29(月) 12:49:16.57ID:VtmwN/uo utf8
864デフォルトの名無しさん
2018/10/29(月) 15:46:00.93ID:AJZhbohO865デフォルトの名無しさん
2018/10/29(月) 16:16:56.56ID:oLCvh0eX ありがとうございます
自己解決しました。
自己解決しました。
866デフォルトの名無しさん
2018/10/30(火) 22:48:53.83ID:sNif6dsM Draft Emoji Candidates
http://www.unicode.org/emoji/future/emoji-candidates.html
何個目だよハート
そして色つきの丸と四角がいっぱい
http://www.unicode.org/emoji/future/emoji-candidates.html
何個目だよハート
そして色つきの丸と四角がいっぱい
867デフォルトの名無しさん
2018/10/31(水) 00:23:40.01ID:W1Oq41Ld オイスターは動物じゃなくて食いもん枠なのか
868デフォルトの名無しさん
2018/10/31(水) 23:32:52.14ID:VU8NOm8y U+2053のSWUNG DASHってどういうときに使うか分かる?
波ダッシュと同じ使い方でいいのかな。
波ダッシュと同じ使い方でいいのかな。
869デフォルトの名無しさん
2018/11/01(木) 00:15:41.30ID:+UpfaFuk ホゲエ〜だと力が足りない時に使う
870デフォルトの名無しさん
2018/11/01(木) 10:43:45.13ID:z733lC2q ⁓
〜
〜
〜
~
~
 ̄
〜
〜
∼
〜
≁
∻
〰
~
 ̄
~
 ̄
〜
〜
〜
〜
~
~
 ̄
〜
〜
∼
〜
≁
∻
〰
~
 ̄
~
 ̄
〜
871デフォルトの名無しさん
2018/11/01(木) 12:02:35.35ID:rRwKTtG6 >>870
床に落ちてる縮れ毛みたいだね
床に落ちてる縮れ毛みたいだね
872デフォルトの名無しさん
2018/11/01(木) 12:10:10.60ID:VLboL17t gal undo
873デフォルトの名無しさん
2018/11/01(木) 13:23:41.33ID:EuhtjlAA >>871
こんなきれいに並べんやろ
こんなきれいに並べんやろ
874デフォルトの名無しさん
2018/11/04(日) 22:18:26.79ID:V6s3/sLe >>860
alia-label=属性は絵文字の音声読み上げが上手くできなかった時代の対処療法。
今はほとんどの(特に視覚障碍者が使うような)音声読み上げが絵文字に対応してるので
必要ないかと。role=属性をimgにするという案はいいね。
alia-label=属性は絵文字の音声読み上げが上手くできなかった時代の対処療法。
今はほとんどの(特に視覚障碍者が使うような)音声読み上げが絵文字に対応してるので
必要ないかと。role=属性をimgにするという案はいいね。
875デフォルトの名無しさん
2018/11/05(月) 15:43:44.70ID:TZRFRfjm 今でもASCII制御文字で使われている物はHT CR LFくらいかな?
876デフォルトの名無しさん
2018/11/05(月) 17:16:04.95ID:o5QGnfIr C/C++なら今でも\aで音出るよ
877デフォルトの名無しさん
2018/11/05(月) 20:56:08.29ID:4CVibwX5 今のPCもマザボにスピーカー入ってるの?
878デフォルトの名無しさん
2018/11/06(火) 02:07:29.32ID:dakOghSY NUL SO SI ESC SPACE DEL 辺りも使うかな
879デフォルトの名無しさん
2018/11/06(火) 11:04:20.63ID:FAqyZmup RLOも現役ぽいなあ
880デフォルトの名無しさん
2018/11/06(火) 11:35:39.71ID:vyXuaWzf ^C
881デフォルトの名無しさん
2018/11/06(火) 11:46:12.83ID:rqFrnjhJ BSも利く
882デフォルトの名無しさん
2018/11/06(火) 13:19:35.81ID:e09+EfP6 ^cはシグナルを送るキーとして使われてるだけで改ページの意味があるわけではないからなあ
とはいえ改ページとしてのFFがあるテキストファイルもたまにある
とはいえ改ページとしてのFFがあるテキストファイルもたまにある
883デフォルトの名無しさん
2018/11/06(火) 13:28:10.62ID:qdniag2/ Win32APIのMessageBoxはテキストに0x03が含まれてるとゴニョゴニョ
884デフォルトの名無しさん
2018/11/09(金) 01:31:09.73ID:c1qAdcQz ?
885デフォルトの名無しさん
2018/11/09(金) 19:51:09.78ID:3ZHBVzZ5 Unicodeの概念そのものは好きだけど
太字の「>」とか 要る? そういう太字にしたり斜体にしたりするのはワードプロセッサーや写植システムの役割だろう。
太字の「>」とか 要る? そういう太字にしたり斜体にしたりするのはワードプロセッサーや写植システムの役割だろう。
886デフォルトの名無しさん
2018/11/09(金) 21:06:14.08ID:romiKFBS 知らんけどもともとどっかにあったんじゃないの?
とりあえずなんでも拾っとくことこそUnicodeの概念とやらの本質じゃないの?
とりあえずなんでも拾っとくことこそUnicodeの概念とやらの本質じゃないの?
887デフォルトの名無しさん
2018/11/10(土) 02:40:35.70ID:1I6WGnS3 なんでも拾っておくってなら、CJKまとめるなんて暴挙はなかったろ
888デフォルトの名無しさん
2018/11/10(土) 12:59:04.24ID:RdMcj9Zd 別々の集合からならまとめても元に戻せるから矛盾しないぞ
>>887
それは16ビットで収めるためのMSの暴挙
それは16ビットで収めるためのMSの暴挙
890デフォルトの名無しさん
2018/11/10(土) 13:36:04.74ID:6fDrSpR2 太字よりも、色付き絵文字に呆れた。
891デフォルトの名無しさん
2018/11/10(土) 15:49:00.28ID:gwVpzklH 絵文字排除するはずだったのに何のための文字コードだったのか
892デフォルトの名無しさん
2018/11/10(土) 15:52:17.38ID:mjExs0JA むしろいちいちフォントなんか使わずに画像使えばいい
893デフォルトの名無しさん
2018/11/10(土) 16:19:59.30ID:gwVpzklH 害児のための外字
894デフォルトの名無しさん
2018/11/12(月) 16:28:58.15ID:sDbkVTfY 記号類にもUnihan Databaseみたいな典拠集積したやつを作っておくべきだったなとは思う。
895デフォルトの名無しさん
2018/11/13(火) 03:51:59.47ID:T2RztKBH テスト
🐱👤🐱🏍🐱💻🐱🐉🐱👓🐱🚀
🐱👤🐱🏍🐱💻🐱🐉🐱👓🐱🚀
896デフォルトの名無しさん
2018/11/14(水) 00:25:03.52ID:7Ifnwzhb test
897デフォルトの名無しさん
2018/11/14(水) 15:22:06.98ID:DziNZxCd test123
898デフォルトの名無しさん
2018/11/23(金) 10:18:33.14ID:e4GZHgy/899デフォルトの名無しさん
2018/11/23(金) 22:12:04.21ID:8npogZAr 「画数の多い文字」として知られているけれども本当に実用されていた文字なのか誰も確認できず、
しかし「画数の多い文字の例」として使われているために少なくともそれ以後は実在していると考えるしかないという
しかし「画数の多い文字の例」として使われているために少なくともそれ以後は実在していると考えるしかないという
900デフォルトの名無しさん
2018/11/23(金) 23:52:57.64ID:LJvBE/cy >>899
じゃあ実用されていた漢字で一番画数が多いのはなんですか?
じゃあ実用されていた漢字で一番画数が多いのはなんですか?
901デフォルトの名無しさん
2018/11/24(土) 00:12:46.90ID:GcFLRWmR 実用なら身も蓋もありませんが親鸞の「鸞」と、2chでもおなじみの「鬱」でしょうね
新聞で使う文字に限るなら「鑑」で、
本当の意味での常用漢字なら「襲う」と「驚く」でしょうね
本当に身近な字ですが無駄に画数多いよね!
子供の日記でも「〜でおどろいた」と良く使われるフレーズなのにね!
新聞で使う文字に限るなら「鑑」で、
本当の意味での常用漢字なら「襲う」と「驚く」でしょうね
本当に身近な字ですが無駄に画数多いよね!
子供の日記でも「〜でおどろいた」と良く使われるフレーズなのにね!
902デフォルトの名無しさん
2018/11/24(土) 00:16:41.62ID:jHhCYnAM ためになるなあ
903デフォルトの名無しさん
2018/11/24(土) 09:56:10.66ID:b7FMpfFJ904デフォルトの名無しさん
2018/11/24(土) 13:17:41.92ID:4kdGLnPd 學校
臺灣
國體
驛辯
やめたくなるわな
臺灣
國體
驛辯
やめたくなるわな
905デフォルトの名無しさん
2018/11/24(土) 13:24:00.06ID:4kdGLnPd906デフォルトの名無しさん
2018/11/24(土) 13:49:21.65ID:rXljiVhx 複雑な文様・難解な表記ほど有難いと思ってるやつがいるうちは漢字は世にはばかり続けるだろう
907デフォルトの名無しさん
2018/11/24(土) 14:28:12.34ID:4kdGLnPd 明後日の方向からレスが来た
909デフォルトの名無しさん
2018/11/24(土) 22:16:10.34ID:nC23MCFq メールも8bit文字ををBase64などでエンコードせずにそのまま送れるのが標準になってほしいよ
普段使っているメールサーバーにtelnetを使ってEHLOではなく従来のHELOでログインして
ヘッダーにshift jisをエンコードせずに入れたメールを送ってみたが問題なく送れたから
SMTPUTF8対応を明言していなくても8bitを送れるメールサーバーは結構あるんだろうけど
普段使っているメールサーバーにtelnetを使ってEHLOではなく従来のHELOでログインして
ヘッダーにshift jisをエンコードせずに入れたメールを送ってみたが問題なく送れたから
SMTPUTF8対応を明言していなくても8bitを送れるメールサーバーは結構あるんだろうけど
910デフォルトの名無しさん
2018/11/24(土) 22:31:27.28ID:3CbvFbkZ 20年くらい前にfjで「8bit通らないMTAってまだどっかで稼働してるのかね?」って話をしてたような気がするが。
911デフォルトの名無しさん
2018/11/24(土) 23:28:09.38ID:or35NFsF ならUTF-7使うしかない
912デフォルトの名無しさん
2018/11/24(土) 23:36:50.36ID:nC23MCFq 20年前でもほぼ8bitが通る状況だったならMUAの側も
8bit文字をエンコードせずに送る設定を用意してもよさそうだが
それができるMUAはあるんだろうか
8bit文字をエンコードせずに送る設定を用意してもよさそうだが
それができるMUAはあるんだろうか
913デフォルトの名無しさん
2018/11/25(日) 00:05:18.90ID:KC5pxzP6914デフォルトの名無しさん
2018/11/25(日) 00:12:25.76ID:nGQiRV3b 税の申告書で屋号とか書く欄があったような無かったような
915デフォルトの名無しさん
2018/11/25(日) 01:10:56.47ID:Tmpw9nku916デフォルトの名無しさん
2018/11/25(日) 17:37:13.70ID:arFqKMW0917デフォルトの名無しさん
2018/11/26(月) 00:16:22.18ID:55zKdsET >>905
局部の隠し方が絶妙すぎて笑う
局部の隠し方が絶妙すぎて笑う
918デフォルトの名無しさん
2018/11/26(月) 11:27:31.30ID:SVaivieI >>914
昔はあった、今もあるかは知らん
昔はあった、今もあるかは知らん
919板の新参者ですが
2018/11/27(火) 07:32:04.24ID:bOfqa3Yp 5chでは、スレッドによってか板によってか知りませんが、
Unicode文字が数値文字参照に化けたりって、どういう場合
なのでしょうか?
スレの立て方で決められるのでしょうか?
⇒設定方法など、どなたか詳細をご存知でしたらご教示願います。
それとも板ごとに決まっているのでしょうか?
⇒設定一覧など、どなたか詳細をご存知でしたらご教示願います。
基本的なことようですが、自分では検索でうまくヒットできません。
Unicode文字が数値文字参照に化けたりって、どういう場合
なのでしょうか?
スレの立て方で決められるのでしょうか?
⇒設定方法など、どなたか詳細をご存知でしたらご教示願います。
それとも板ごとに決まっているのでしょうか?
⇒設定一覧など、どなたか詳細をご存知でしたらご教示願います。
基本的なことようですが、自分では検索でうまくヒットできません。
920デフォルトの名無しさん
2018/11/27(火) 08:48:35.30ID:vqp/19EL921デフォルトの名無しさん
2018/11/27(火) 10:50:58.56ID:zH6Yh8LQ BBS_UNICODE=passでも、今は数値文字参照(10進数)だけが使えるんだよな。
以前は数値文字参照(16進数)も文字実体参照も使えたんだけど。
js使った変換ツールで変換してるわ。
以前は数値文字参照(16進数)も文字実体参照も使えたんだけど。
js使った変換ツールで変換してるわ。
922デフォルトの名無しさん
2018/11/27(火) 14:22:21.18ID:pHjl6gJ9923デフォルトの名無しさん
2018/11/27(火) 16:22:46.53ID:zH6Yh8LQ とりあえず現状を試しておこう。
ハートの全角文字テスト
♥ → ♥
♥ → ♥
♥ → ♥
さて、どうかな?
ハートの全角文字テスト
♥ → ♥
♥ → ♥
♥ → ♥
さて、どうかな?
924デフォルトの名無しさん
2018/11/27(火) 19:32:26.19ID:t2TLQBob 📛 日本人には幼稚園児の名札に見える絵文字は、外国人には何なのかさっぱりわからず『燃えるトーフ』と呼ばれていた - Togetter
https://togetter.com/li/1292538
https://togetter.com/li/1292538
925デフォルトの名無しさん
2018/11/27(火) 19:57:48.88ID:gXLD+0BO 顔文字はこれ以上増やすよりZWJを使って目とか口とかを組み合わせて
自分で作れるようにした方がいいと思う
自分で作れるようにした方がいいと思う
926デフォルトの名無しさん
2018/11/27(火) 20:14:23.30ID:+uQVAXpU 全角とは
927デフォルトの名無しさん
2018/11/28(水) 02:59:23.88ID:BkKDQWNJ FULL WIDTH
928デフォルトの名無しさん
2018/11/28(水) 04:06:11.10ID:A2M+lx4Y929デフォルトの名無しさん
2018/11/28(水) 09:49:40.91ID:zomCLGU3 横方向に Full Width 全角
縦方向に Full Width 倍角
?
縦方向に Full Width 倍角
?
930デフォルトの名無しさん
2018/11/28(水) 12:51:43.14ID:b91COmuR ワープロ専用機時代、横倍角なんていう気持ち悪いのがあったな
931デフォルトの名無しさん
2018/11/28(水) 15:08:09.04ID:N7oZ3GQl 〴
〵
気持ち悪いってもこれよりはマシやろ
〵
気持ち悪いってもこれよりはマシやろ
932デフォルトの名無しさん
2018/11/29(木) 01:40:08.15ID:lIzTCHsu HALF WIDTH (^-^)
FULL WIDTH ( ^ _ ^ )
FULL WIDTH ( ^ _ ^ )
933デフォルトの名無しさん
2018/11/29(木) 14:33:52.79ID:Msn7clch iconvの文字集合オプションに「EUC-JISX0213」っていうのがあったんだけど
これシステムはEUC-jpと認識するけど中にはJIS X 0213で定められた新しい文字を
入れられるって意味……じゃないよね。
というのはSKK-JISYOで使いたい異字体があったのでこのエンコーディングをしてみたけど無理だったので。
これシステムはEUC-jpと認識するけど中にはJIS X 0213で定められた新しい文字を
入れられるって意味……じゃないよね。
というのはSKK-JISYOで使いたい異字体があったのでこのエンコーディングをしてみたけど無理だったので。
934デフォルトの名無しさん
2018/11/30(金) 13:11:19.56ID:FBzo8MwT >>933
少しぐらいは調べろよ……検索したら幾らでも情報が出てくるよ。
EUC-JPの一種だけど今は廃止されてる。
EUC-JIS-2004 - Wikipedia
https://ja.wikipedia.org/wiki/EUC-JIS-2004
EUC-JISX0213 ‐ 通信用語の基礎知識
https://www.wdic.org/w/WDIC/EUC-JISX0213
少しぐらいは調べろよ……検索したら幾らでも情報が出てくるよ。
EUC-JPの一種だけど今は廃止されてる。
EUC-JIS-2004 - Wikipedia
https://ja.wikipedia.org/wiki/EUC-JIS-2004
EUC-JISX0213 ‐ 通信用語の基礎知識
https://www.wdic.org/w/WDIC/EUC-JISX0213
935デフォルトの名無しさん
2018/11/30(金) 14:13:45.09ID:P5LXHiB7 廃止されたんか…
936デフォルトの名無しさん
2018/11/30(金) 14:42:42.21ID:XOMh22Gb 廃止されたんよ
937デフォルトの名無しさん
2018/11/30(金) 14:59:53.47ID:5jWhYr7h そうなんかい…
938デフォルトの名無しさん
2018/12/01(土) 01:50:51.78ID:V6WUEvLt EUCで0213したいときはどうすればいいんだ…
939デフォルトの名無しさん
2018/12/01(土) 02:27:14.32ID:O7l2nkqH 普通にEUC-JIS-2004を使え
940デフォルトの名無しさん
2018/12/01(土) 02:33:51.02ID:LH+8CiFR えぇ…
941デフォルトの名無しさん
2018/12/01(土) 04:17:45.98ID:r8gMvw+h なんで廃止するんだ…
942デフォルトの名無しさん
2018/12/01(土) 15:43:51.59ID:4cHgv8YS よう分からん。
EUC-JISX0213(JIS X 0213:2000ベース)は廃止されて、EUC-JIS-2004(JIS X 0213:2004ベース)になったってことでいいのか?
EUC-JISX0213(JIS X 0213:2000ベース)は廃止されて、EUC-JIS-2004(JIS X 0213:2004ベース)になったってことでいいのか?
943デフォルトの名無しさん
2018/12/01(土) 16:34:03.50ID:bl/45R/s 改訂のタイミングでX0213から-2004に名前が変わっただけってこと?
944デフォルトの名無しさん
2018/12/03(月) 16:03:32.93ID:FWFg2HSw >>942
そゆこと。
実際にはEUC-JIS-2004が上位互換だし、ウィキペディアからの引用だけど、
>なお、この符号化方式はJIS X 0213の初版 (2000年) ではEUC-JISX0213と命名されていた。
>2004年改正におけるUCS互換漢字10文字の有無だけが異なるが、大きな違いではないためEUC-JIS-2004と同一視されることもある。
とのことなので、ほぼ同じものと思ってよい。
そゆこと。
実際にはEUC-JIS-2004が上位互換だし、ウィキペディアからの引用だけど、
>なお、この符号化方式はJIS X 0213の初版 (2000年) ではEUC-JISX0213と命名されていた。
>2004年改正におけるUCS互換漢字10文字の有無だけが異なるが、大きな違いではないためEUC-JIS-2004と同一視されることもある。
とのことなので、ほぼ同じものと思ってよい。
945デフォルトの名無しさん
2018/12/04(火) 00:06:31.38ID:kEiJOL5a なあんだ
946デフォルトの名無しさん
2018/12/05(水) 23:26:18.07ID:0a3ULp4B JISの漢字コードってたまにそういうのあるよね
2文字増えただけのJIS0208-1990とか
2文字増えただけのJIS0208-1990とか
947デフォルトの名無しさん
2018/12/07(金) 11:12:03.49ID:baVD1zSv 日本マイクロソフトやAdobeが改元対応を説明
https://pc.watch.impress.co.jp/docs/news/1157118.html
同社では、1993年に「マイクロソフト標準キャラクタセット」として、
相互運用を目的とした文字コードを策定しているが、
今回の新元号対応では同社独自の対応は行なわず、ベースとなる標準に準拠し、
Code Page 932/拡張文字を含むシフトJISでは対応を行なわないと説明。
Unicodeについては標準の対応に準じた更新を予定する。
フォント更新については、同社のシステム標準フォントである
MSゴシックやMeiryo UI、Yu Gothic UIなどで新元号に対応するとした。
なお、IME辞書の更新については、フォントを含むすべての更新作業後の対応となる。
https://pc.watch.impress.co.jp/docs/news/1157118.html
同社では、1993年に「マイクロソフト標準キャラクタセット」として、
相互運用を目的とした文字コードを策定しているが、
今回の新元号対応では同社独自の対応は行なわず、ベースとなる標準に準拠し、
Code Page 932/拡張文字を含むシフトJISでは対応を行なわないと説明。
Unicodeについては標準の対応に準じた更新を予定する。
フォント更新については、同社のシステム標準フォントである
MSゴシックやMeiryo UI、Yu Gothic UIなどで新元号に対応するとした。
なお、IME辞書の更新については、フォントを含むすべての更新作業後の対応となる。
948デフォルトの名無しさん
2018/12/07(金) 16:19:20.12ID:qBlHhwTE え、これってひょっとして新元号合字が使えるのはUnicode系統だけで、
JIS X0208/SJIS/CP932系統では今後永遠に使えるようにならないってこと?
元号合字を必要としてるとこって、まさに未だそういう系統を使ってるとこだと思うんだけど…
JIS X0208/SJIS/CP932系統では今後永遠に使えるようにならないってこと?
元号合字を必要としてるとこって、まさに未だそういう系統を使ってるとこだと思うんだけど…
949デフォルトの名無しさん
2018/12/07(金) 16:48:04.41ID:7WHjGWxq 独自の文字セットで運用すりゃいいだけ
950デフォルトの名無しさん
2018/12/07(金) 21:50:22.19ID:0/x3pMw+ JIS X 0213に入ったら
当然Shift_JISにもいれるべき
~ 2D5F
潤@2D6F
氏@2D6E
香@2D6D
2D5Eが空いてる
当然Shift_JISにもいれるべき
~ 2D5F
潤@2D6F
氏@2D6E
香@2D6D
2D5Eが空いてる
951デフォルトの名無しさん
2018/12/07(金) 22:22:10.91ID:nIptkpuh 和田研細丸ゴシックのU+32FFのグリフ
平成
の次
で吹いたw
平成
の次
で吹いたw
952デフォルトの名無しさん
2018/12/07(金) 22:28:33.61ID:Z7Pkiqbl しかし年号の余裕も言うほどないよな
10人くらいがばばーっと毎年のように亡くなって年号も変わったらどうするつもりなのだろう
なんだかんだで西暦が一番よねえ
もしくはネトウヨが言うような皇紀とやらにしちゃいなよ
人で変わらない数字って楽ちんよー
四桁にもなれば先頭はまず変わらないわけだし
10人くらいがばばーっと毎年のように亡くなって年号も変わったらどうするつもりなのだろう
なんだかんだで西暦が一番よねえ
もしくはネトウヨが言うような皇紀とやらにしちゃいなよ
人で変わらない数字って楽ちんよー
四桁にもなれば先頭はまず変わらないわけだし
953デフォルトの名無しさん
2018/12/07(金) 23:44:21.45ID:Sv6zm0b9 そんなにしょっちゅう変わったらさすがに文字コード需要のほうがなくなりそうだが
954デフォルトの名無しさん
2018/12/08(土) 01:15:36.39ID:7zz08Xs4 どのみち継承者を今後10年で10人確保するのは無理なので…
955デフォルトの名無しさん
2018/12/08(土) 02:21:31.30ID:nIDZ4yFF 赤ちゃんでもいいので可能性はある
956デフォルトの名無しさん
2018/12/08(土) 03:58:41.86ID:xmV4OmOO 既にある文字を組み合わせた合字が増え続けるとわかっているなら次の文字が半分の大きさであることを
表すコントロールコードを作ってしまってそれを付加した2文字を使った方が良いのではないか?
そうしないと延々と文字が増え続ける。
表すコントロールコードを作ってしまってそれを付加した2文字を使った方が良いのではないか?
そうしないと延々と文字が増え続ける。
957デフォルトの名無しさん
2018/12/08(土) 05:46:24.58ID:4O5fRXD5 なんかプレッシャーに耐えかねてホモに走って断絶なんてことになりそうな気もするけどなあ
958デフォルトの名無しさん
2018/12/08(土) 08:49:48.25ID:VbRdNM0/ 縦書きも考慮しなきゃいけないとか面倒くさすぎだな
新元号対応について
https://citpc.jp/download/2018-12-06%20CITPC%20Seminar_Ken%20Tamaru.pdf
新元号対応について
https://citpc.jp/download/2018-12-06%20CITPC%20Seminar_Ken%20Tamaru.pdf
959デフォルトの名無しさん
2018/12/09(日) 20:48:07.44ID:NLNV6qg6 >>948
JIS X 0213が話題になった時もMicrosoftが表明したのは
「マイクロソフト標準キャラクタセットはもう凍結、
CP932の拡張はしない、UCS/Unicodeとしてはサポートする」
だったから既定の方針通りですな。
http://www.jepa.or.jp/jepa_cms/wp-content/uploads/2010/05/jepa0000518783.pdf
https://www.itscj.ipsj.or.jp/hasshin_joho/unei/files/unei21-Kajisa.pdf
JIS X 0213が話題になった時もMicrosoftが表明したのは
「マイクロソフト標準キャラクタセットはもう凍結、
CP932の拡張はしない、UCS/Unicodeとしてはサポートする」
だったから既定の方針通りですな。
http://www.jepa.or.jp/jepa_cms/wp-content/uploads/2010/05/jepa0000518783.pdf
https://www.itscj.ipsj.or.jp/hasshin_joho/unei/files/unei21-Kajisa.pdf
960デフォルトの名無しさん
2018/12/10(月) 08:46:40.86ID:S9fSc6ei Unifontだと、32FFは
32
FF (undefined)
だね。こうゆうのが、一番解りやすくていいんだけど、
なぜ他のフォントは、マネをしないんだろうか?
32
FF (undefined)
だね。こうゆうのが、一番解りやすくていいんだけど、
なぜ他のフォントは、マネをしないんだろうか?
961デフォルトの名無しさん
2018/12/10(月) 13:28:03.68ID:7KZwr80a Firefoxとかはフォントにない文字は自動でその表示になるよね。
まあ、文字コードがどうとか関係ない大多数の人にとって、
そんなデバッグモードみたいな出力されても逆に意味不明だから広がらないんだろうな。
まあ、文字コードがどうとか関係ない大多数の人にとって、
そんなデバッグモードみたいな出力されても逆に意味不明だから広がらないんだろうな。
962デフォルトの名無しさん
2018/12/10(月) 17:39:24.58ID:A+rv6wMQ 未収録のままにして他のフォントで表示してくれたほうがありがたいからなあ
963デフォルトの名無しさん
2018/12/10(月) 19:51:03.00ID:hinx2Zbo それだな
グリフがあると自動フォールバックが利かなくなる
グリフがあると自動フォールバックが利かなくなる
964デフォルトの名無しさん
2018/12/10(月) 22:52:22.99ID:N5SCf3O2 U+32FFは初期のUnicodeでは現在U+3004にあるJISマークだったんだな。
で、当時U+3004は記号扱いの「仝」で漢字扱いの「仝」(U+4EDD)とは区別してたらしい。
で、当時U+3004は記号扱いの「仝」で漢字扱いの「仝」(U+4EDD)とは区別してたらしい。
965デフォルトの名無しさん
2018/12/10(月) 23:18:14.27ID:hinx2Zbo 新元号はM/T/S/H以外が実用上望ましいんだよな。
Jか…いけるなあ。
Jか…いけるなあ。
966デフォルトの名無しさん
2018/12/11(火) 13:17:12.25ID:eQLW3H68 放送大学のUnicodeの番組わかりやすかった
967デフォルトの名無しさん
2018/12/11(火) 16:17:48.41ID:gC3VOuLX 地上波で映らなくなったから見れない…
968デフォルトの名無しさん
2018/12/11(火) 18:11:21.44ID:uSURGRNJ 残念だ
969デフォルトの名無しさん
2018/12/11(火) 20:34:24.45ID:ku/Zz2dV 囲みCJK文字/月ブロックは平成の次で全て埋まると思ったが、U+321Fがまだ空いてるな。
次の次の元号はもしその時になっても空きだったらそこになるのかな。
次の次の元号はもしその時になっても空きだったらそこになるのかな。
970デフォルトの名無しさん
2018/12/11(火) 21:42:40.13ID:Hrs/4e8e >>960
フォントサイズが増えるからでしょ?
フォントサイズが増えるからでしょ?
971デフォルトの名無しさん
2018/12/15(土) 07:05:36.47ID:LC13wD1r >>966
紹介サイトのURLとか貼れます?
紹介サイトのURLとか貼れます?
972デフォルトの名無しさん
2018/12/15(土) 13:39:28.60ID:ciQUdpOi シラバス
https://www.ouj.ac.jp/hp/kamoku/2019/kyouyou/C/joho/index.html
この前見たのはこれだったかな
情報理論とデジタル表現(’19)
の 第11回 テキストの符号化
これもおすすめ
デジタル情報の処理と認識(’18)
通信概論(’14)
https://www.ouj.ac.jp/hp/bangumi/year_tv.html
公開番組もあり
https://vod.ouj.ac.jp/view/ouj/#/navi/vod?ca=489
https://www.youtube.com/channel/UCd8zAzjHkIcPbnTDyn-q50w/videos
https://www.ouj.ac.jp/hp/kamoku/2019/kyouyou/C/joho/index.html
この前見たのはこれだったかな
情報理論とデジタル表現(’19)
の 第11回 テキストの符号化
これもおすすめ
デジタル情報の処理と認識(’18)
通信概論(’14)
https://www.ouj.ac.jp/hp/bangumi/year_tv.html
公開番組もあり
https://vod.ouj.ac.jp/view/ouj/#/navi/vod?ca=489
https://www.youtube.com/channel/UCd8zAzjHkIcPbnTDyn-q50w/videos
973デフォルトの名無しさん
2018/12/15(土) 14:24:01.62ID:/xz8BzsC Windows 10 Insider Preview、メモ帳でBOMなしのUTF-8が選択可能に | スラド デベロッパー
https://developers.srad.jp/story/18/12/14/0345249/
ついに
https://developers.srad.jp/story/18/12/14/0345249/
ついに
974デフォルトの名無しさん
2018/12/15(土) 14:46:24.79ID:Sg9amITu BOMカットするのなんてマなら簡単だろ
975デフォルトの名無しさん
2018/12/15(土) 15:14:00.77ID:+6LwXb2C マジかよ圧倒的シェアのWindowsがBOM付きだからという理由で自分は全部BOM月にしてたのに梯子外されたのかよ
976デフォルトの名無しさん
2018/12/15(土) 15:21:32.65ID:Sg9amITu SJIS絶滅はよ
977デフォルトの名無しさん
2018/12/15(土) 15:27:12.87ID:EyhC0X8P >>975
わざとらしい。Windowsのネイティブ文字コードはUTF16なんだから普通はUTF16を使うだろ
メモ帳で保存するときに、Unicodeを選んだらUTF16になる
UnicodeといえばUTF16のこと
わざとらしい。Windowsのネイティブ文字コードはUTF16なんだから普通はUTF16を使うだろ
メモ帳で保存するときに、Unicodeを選んだらUTF16になる
UnicodeといえばUTF16のこと
>>975
そもそも Byte Order Mark の必要のない UTF-8 に BOM を付けていることが論理的に矛盾していますよね
そもそも Byte Order Mark の必要のない UTF-8 に BOM を付けていることが論理的に矛盾していますよね
979デフォルトの名無しさん
2018/12/15(土) 15:44:04.63ID:EyhC0X8P >>979
>UTF-8の仕様によると、BOMは文書がUnicodeであることを自動判定するためにも用いられる
>らしい
らしい、ですか…
本当にそうなのか確かめてみました。RFC3629 https://tools.ietf.org/html/rfc3629 の記述は
The UCS character U+FEFF "ZERO WIDTH NO-BREAK SPACE" is also known
informally as "BYTE ORDER MARK" (abbreviated "BOM").
BOM は本来は「ゼロ長割り込みなしスペース」という意味らしいですね…
ながながとあれやこれは書いてあったのですが結論はよくわからないです、誰か英語のできる人、どこを読めばいいか教えてください…
>UTF-8の仕様によると、BOMは文書がUnicodeであることを自動判定するためにも用いられる
>らしい
らしい、ですか…
本当にそうなのか確かめてみました。RFC3629 https://tools.ietf.org/html/rfc3629 の記述は
The UCS character U+FEFF "ZERO WIDTH NO-BREAK SPACE" is also known
informally as "BYTE ORDER MARK" (abbreviated "BOM").
BOM は本来は「ゼロ長割り込みなしスペース」という意味らしいですね…
ながながとあれやこれは書いてあったのですが結論はよくわからないです、誰か英語のできる人、どこを読めばいいか教えてください…
981デフォルトの名無しさん
2018/12/15(土) 21:51:17.49ID:px2y3yP7 ISO10646では誤解を受けそうなBOMという呼び名は使われていなくてSignatureと言うらしい。
現在ではU+FEFFは専らSignatureを表すものとして、もともとのゼロ幅ノーブレークスペースの意味で
使用することは推奨されていない。代わりにU+2060 WORD JOINERを使用することになっている。
現在ではU+FEFFは専らSignatureを表すものとして、もともとのゼロ幅ノーブレークスペースの意味で
使用することは推奨されていない。代わりにU+2060 WORD JOINERを使用することになっている。
982デフォルトの名無しさん
2018/12/15(土) 23:06:31.96ID:8aRCy95z やはり頭悪いのはunicodeと符号化を混同してる
文書は符号化されたunicodeということになる
2つ以上のオクテットを使う符号単位で
BOM入れないヤツは池沼だからな
文書は符号化されたunicodeということになる
2つ以上のオクテットを使う符号単位で
BOM入れないヤツは池沼だからな
983デフォルトの名無しさん
2018/12/16(日) 00:59:01.64ID:0WbTxJge WindowsがなぜUTF-16のことをUnicodeといっているかというと、
Windows NT 初代の3.1(1994年)当時は世界中の文字は16bitで
全て表現できると思われていたからだよ。
Windows NTは最初からUnicodeに対応したOSなのだが、
当時はUnicode = 16bit = UTF-16が成り立っていた
それが間違っているとわかってUnicodeが21bitに拡張されたのが
Unicode 2.0 (1996年7月)
メモ帳がUTF-16をUnicodeと表現するのはその名残りだよ
そういう歴史を知らないで語ると恥をかく
Windows NT 初代の3.1(1994年)当時は世界中の文字は16bitで
全て表現できると思われていたからだよ。
Windows NTは最初からUnicodeに対応したOSなのだが、
当時はUnicode = 16bit = UTF-16が成り立っていた
それが間違っているとわかってUnicodeが21bitに拡張されたのが
Unicode 2.0 (1996年7月)
メモ帳がUTF-16をUnicodeと表現するのはその名残りだよ
そういう歴史を知らないで語ると恥をかく
984デフォルトの名無しさん
2018/12/16(日) 02:37:42.34ID:/e3hQGaS その当時の話をするならUCS-2じゃないの?
985デフォルトの名無しさん
2018/12/16(日) 05:34:39.63ID:oz52hRFm 寿司と言えば江戸だったから江戸前って名前になった、まで読んだ。
986デフォルトの名無しさん
2018/12/16(日) 11:01:00.63ID:0qV7OEGg 時すでにお寿司
987デフォルトの名無しさん
2018/12/16(日) 12:33:16.52ID:GapmNYlr988デフォルトの名無しさん
2018/12/16(日) 12:35:57.48ID:VlX3xGEw 寿司と言えば江戸ではなかったから、
江戸の寿司と強調したいときは、わざわざ江戸前寿司というようになった
ではないのか?
江戸の寿司と強調したいときは、わざわざ江戸前寿司というようになった
ではないのか?
989デフォルトの名無しさん
2018/12/16(日) 13:50:47.39ID:52dtexo8 寿司食いねえ! 🍣
990デフォルトの名無しさん
2018/12/16(日) 15:02:40.57ID:/e3hQGaS 押し寿司とかなれ寿司が寿司だよな。
酢で酸っぱくした寿司なんかフェイク寿司もいいところ。
酢で酸っぱくした寿司なんかフェイク寿司もいいところ。
991デフォルトの名無しさん
2018/12/16(日) 18:49:12.48ID:A6SlBDUO 押し寿司も酢飯使ってるよ
992デフォルトの名無しさん
2018/12/16(日) 20:12:23.42ID:oz52hRFm 火縄銃といえば種子島だから種子島って名前になった、まで読んだ
993デフォルトの名無しさん
2018/12/16(日) 20:40:53.56ID:Ux2imWCY 違うぞ。種子島の種とは、
子種のことだぞ。
種子島=子種島=ザーメン島
子種のことだぞ。
種子島=子種島=ザーメン島
994デフォルトの名無しさん
2018/12/16(日) 21:01:19.88ID:/e3hQGaS だから鉄砲はぴゅぴゅっと出るんですね
995デフォルトの名無しさん
2018/12/16(日) 21:10:12.52ID:oz52hRFm >>987
日本語でok
日本語でok
996デフォルトの名無しさん
2018/12/17(月) 16:59:55.19ID:Pfqpaohb997デフォルトの名無しさん
2018/12/17(月) 21:10:45.75ID:ncIi/eoH ドイツ語だと植物の種子も同じだからどうでもいい。
998デフォルトの名無しさん
2018/12/17(月) 21:18:37.04ID:lO+98ZHR999デフォルトの名無しさん
2018/12/17(月) 22:43:33.00ID:iPWzsOu1 >>996
thanx
thanx
1000デフォルトの名無しさん
2018/12/18(火) 01:01:53.52ID:dCapM8E2 次スレなぜか分裂
10011001
Over 1000Thread このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 329日 2時間 3分 30秒
新しいスレッドを立ててください。
life time: 329日 2時間 3分 30秒
10021002
Over 1000Thread 5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php
レス数が1000を超えています。これ以上書き込みはできません。
ニュース
- 【文春】永野芽郁(25)&田中圭(40)燃え上がる不倫LINE ★4 [Ailuropoda melanoleuca★]
- 【文春】永野芽郁(25)&田中圭(40)燃え上がる不倫LINE ★5 [Ailuropoda melanoleuca★]
- 【文春】永野芽郁(25)&田中圭(40)燃え上がる不倫LINE ★3 [Ailuropoda melanoleuca★]
- 【文春】永野芽郁(25)&田中圭(40)燃え上がる不倫LINE ★6 [Ailuropoda melanoleuca★]
- 首相、自民幹部にコメ高騰対策策定を指示 [首都圏の虎★]
- 永野芽郁、文春第2弾でフジも痛恨 『パリピ孔明 THE MOVIE』大コケで、永野主演映画は必勝が望まれていた [ネギうどん★]
- 【文春砲第2弾】永野芽郁と田中圭の不倫LINE流出 ★2 [839150984]
- 【文春砲】永野芽郁さんと田中圭さん、燃え上がる不倫LINEが流出
- 【文春砲第2弾】永野芽郁と田中圭の不倫LINE流出 ★3 [197015205]
- 【文春砲】永野芽郁さんと田中圭さん、燃え上がる不倫LINEが流出 ★2
- 【大阪万博】「3000円ぐらいがいいのでは」 吉村知事が価格引き下げを提案 [147827849]
- 京都人気付く「外国人観光客の方がジャップよりマナーと金払いが良い、完全上位互換」 [817260143]