文字コードの種類は何故複数あるのでしょうか？

**デフォルトの名無しさん** · NG

1つにしてくれればPGが苦労することはなくて
、ミンナうれしいはずなのに。

**デフォルトの名無しさん** · 2010/07/04(日) 00:41:32

TCHAR 型ってｗｗｗ
http://www.ruche-home.net/?%A5%D7%A5%ED%A5%B0%A5%E9%A5%DF%A5%F3%A5%B0%2F%BE%AE%A5%CD%A5%BF%BD%B8%2FUnicode%C2%D0%B1%FE%A5%B3%A1%BC%A5%C7%A5%A3%A5%F3%A5%B0

**デフォルトの名無しさん** · 2010/07/04(日) 00:52:11

>>275
言葉自体が曖昧。
まず、Windowsは内部ではファイル名をutf-16で管理してる。
そして、fopenは実装依存。とりあえずVC++のfopenで、日本語ロケールでの使用を想定する。
つまりfopenはcp932(sjisのMS拡張と思ってよし)でエンコードされたchar*をとって、内部でutf-16に変換してる。

そういう意味で、全ファイル名がUNICODE文字列であって、fopenではcp932を経由してUNICODE文字列のファイル名を開ける、と言える。

あるいは、cp932入れるべきところに強引にUNICODE文字列をねじこんで、
それをWindowsが内部でcp932のつもりでutf-16に変換したもの、という意味なら。

まず、それがファイル名として妥当なものになるのか(つまり、そんなファイル作れない。ないものは読めない)というのがひとつ。
次に、UNICODE文字列とはutf8か16か32か(あるいは7か...)。
16,32ならNULを含むことになって作れないだろうなぁ。
8なら、sjisのバックスラッシュ問題にコンパイラが対応してるか、ユーザが小細工してるか。
それによって別の文字になるので調整しないといけないが、うまくすれば読める。

**デフォルトの名無しさん** · 2010/07/04(日) 00:52:15

>>270
CP_UTF8ってのがあるよ。

**デフォルトの名無しさん** · 2010/07/04(日) 01:02:09

>>278
なんでファイル名にUNICODE使えるのかの話で
cp932を持ち出してるの？

**デフォルトの名無しさん** · 2010/07/04(日) 01:09:25

WindowsではfopenにASCII非互換のSJISなどを
認めてしまったため、ASCII互換のものならなんでも受け付けられる
なんて変更は出来なかった。

そのためUNICODEに対応するには、fopenではない
別の関数を使うしかない。それが_wfopen（MS独自関数）ただし
これはUNICODE(UTF-16)限定のためWin9xでは動かない。
そのために_tfopenというマクロが作られた。これを使っていると
define定数でfopen、_wfopenどちらを使うか自動的に変更できる。

これは関数だけではなく、文字列も一緒で、L”文字列"なんて書き方をすると
自動的に変換してくれるがなんか_Tマクロとか_TEXTマクロとかいろいろあって
誰か、きれいにまとめて書いてくれ。

めちゃくちゃすぎてわからん。あぁ、fopenだけでUTF-8で
もEUC-JPにもなんにでも対応できるLinux楽だよ。

**デフォルトの名無しさん** · 2010/07/04(日) 01:54:02

>>280
>>278を読んだのにその疑問が沸いたのなら、君でも分かるように説明するのはあまりに面倒だ。

>>281
で、Linuxに関しては>>267でいいの？　あと>>274にも異論は無い？

**デフォルトの名無しさん** · 2010/07/04(日) 07:56:21

_Tマクロとか_TEXTマクロとかWindowsのマクロの種類は何故複数あるのでしょうか？

**デフォルトの名無しさん** · 2010/07/04(日) 12:58:15

TEXT("hoge") もあったな

**デフォルトの名無しさん** · 2010/07/04(日) 13:23:16

文字コード処理の種類はCSI方式とUCS normalization方式と何故複数あるのでしょうか？

**デフォルトの名無しさん** · 2010/07/04(日) 14:37:25

それは対になるものなのか?

**デフォルトの名無しさん** · 2010/07/06(火) 12:42:48

文字コードのスレは何故複数あるのでしょうか？

**デフォルトの名無しさん** · 2010/07/06(火) 14:36:35

あっちがうさげならばこっちはよそ？

**デフォルトの名無しさん** · 2010/07/08(木) 13:59:28

インテリジェント昆布

略して iconv

**デフォルトの名無しさん** · 2010/07/12(月) 21:33:35

文字コード総合スレ part6
http://pc12.2ch.net/test/read.cgi/tech/1278923059/

**デフォルトの名無しさん** · 2010/07/14(水) 01:22:05

文字の種類は何故複数あるのでしょうか？

**デフォルトの名無しさん** · 2010/07/14(水) 01:50:03

ローマ字では日本語を読みにくいからじゃないかしら

**デフォルトの名無しさん** · 2010/07/14(水) 04:59:56

世界は広いからだよ

**デフォルトの名無しさん** · 2010/07/14(水) 05:46:37

バベルの塔を作り始めたからです

**デフォルトの名無しさん** · 2010/07/15(木) 20:19:48

肉フライ

略してnkf

**デフォルトの名無しさん** · 2010/07/16(金) 01:00:45

>>295
正式にはnettowa-ku kanji firuta-の略だっけ。

**デフォルトの名無しさん** · 2010/07/16(金) 02:24:52

nurupo
kimuchi-E
fack

**デフォルトの名無しさん** · 2010/07/16(金) 16:06:16

>>296
nkf Network Kanji Filter
http://sourceforge.jp/projects/nkf/
まさかのgit。
http://git.sourceforge.jp/view?p=nkf/nkf.git

**デフォルトの名無しさん** · 2010/07/30(金) 16:49:09

ﾜﾛﾀ本になっていたのね。

斎藤秀紀「構造化4バイトコードによる多言語漢字の符号化」
http://www.amazon.co.jp/gp/product/4898273009/

これでしょ。
http://www.horagai.com/www/moji/int/saito.htm

**デフォルトの名無しさん** · 2010/07/30(金) 20:17:12

>>299
ここも隔離スレっぽいよ。

**デフォルトの名無しさん** · 2010/08/05(木) 08:30:33

コードの種類は何故複数あるのでしょうか？
ストレートとクロスの見分けが付きません。

**デフォルトの名無しさん** · 2010/08/05(木) 09:06:26

ソースといえばブルドック？おたふく？
あなたはどちら？

**デフォルトの名無しさん** · 2010/08/05(木) 09:06:55

買ったらすぐにシール貼っとけよ

**デフォルトの名無しさん** · 2010/08/05(木) 20:29:23

>>301
両端のコネクタを並べてみて、色が同じ順ならストレート、違う順ならクロス。

**デフォルトの名無しさん** · 2010/08/10(火) 12:56:48

>>302
イカリソース

**デフォルトの名無しさん** · 2010/09/12(日) 08:49:08

>>302
カゴメ

**デフォルトの名無しさん** · 2010/09/12(日) 11:38:54

>>302
中部地方はコーミソースに決まってんだよ。ブルドッグ何それ。

**デフォルトの名無しさん** · 2010/09/12(日) 11:49:50

俺のホワイトソースでも飲んでろ
馬鹿どもめ

**デフォルトの名無しさん** · 2010/09/13(月) 07:34:49

ソースの種類は何故複数あるのでしょうか？
ソースを買ってくるように頼まれてソイソースを買ってきたら怒られました。

**デフォルトの名無しさん** · 2010/09/13(月) 16:04:42

そりゃ醤油はソースとは認められないからな。
次はちゃんとソースを買ってくるんだぞ。

**デフォルトの名無しさん** · 2010/09/13(月) 16:38:52

>>283 自分用メモ
WindowsSDKレベルではではTCHARとTEXTか__TEXTのみ有効
その他はCランタイムのもので混用すべきではない

**デフォルトの名無しさん** · 2010/09/13(月) 22:48:14

UNICODEがSDK用で_UNICODEがCRT用だっけ

**デフォルトの名無しさん** · 2010/09/13(月) 23:10:52

L()はどれだっけ

**デフォルトの名無しさん** · 2010/09/13(月) 23:24:28

そんなマクロあったっけ

**デフォルトの名無しさん** · 2010/09/14(火) 01:03:17

L""ならリテラルじゃね

**デフォルトの名無しさん** · 2010/09/14(火) 07:45:04

それは言語機能でMSは関係ないな
もっともMS以外ではワイド文字がUTF-16とは限らないけど

**デフォルトの名無しさん** · 2010/09/25(土) 17:10:40

もっとも、 <windows.h>の中のどこかのヘッダで以下のような旨の記述があり、
「_UNICODEとUNICODEのどちらか一方は定義してあるけど、もう片方は定義されていない」
という状況を排除しているので、_TとTEXTを混在させても問題ない。
#ifdef UNICODE
#ifndef _UNICODE
#define _UNICODE
#endif
#endif

#ifdef _UNICODE
#ifndef UNICODE
#define UNICODE
#endif
#endif

**デフォルトの名無しさん** · 2010/10/09(土) 19:23:25

>>302
どろソース

**デフォルトの名無しさん** · 2011/01/16(日) 14:27:02

そーすね

**デフォルトの名無しさん** · 2011/04/15(金) 13:28:40.29

>>302
オリバー

**デフォルトの名無しさん** · 2011/04/15(金) 15:28:09.44

>>302
イカリが多かったがカープも使う

**デフォルトの名無しさん** · 2011/04/15(金) 21:32:56.00

CP932の完成度は異常。

**デフォルトの名無しさん** · 2011/04/15(金) 22:39:01.54

同じ文字でコードが何種類もあるものが完全とな。

**デフォルトの名無しさん** · 2011/04/15(金) 22:53:48.86

スレ全体検索したけど完全なんて文字は>>323しかない件

森& ◆vjMeDi2lEM · 2011/06/24(金) 00:06:15.57

森鴎外の「鴎」は正しくは「鷗」である。
草なぎ剛
草彅剛

北朝鮮に文字コードは割り振られているのか？

マイクロソフトは、南朝鮮の町工場に北の象形文字をOSに実装してくれと
懇願されたが拒否したらしいが。直接北から要求しなかった。
北は南と文字が異なっているのか。

unicodeに北文字あったか？存在するなら規格票、文献を提示してくれ。

uy ◆hi.ht/Isu2 · 2011/06/29(水) 06:19:43.43

＞マイクロソフトは、南朝鮮の町工場に北の象形文字をOSに実装してくれと
＞懇願されたが拒否したらしいが。直接北から要求しなかった。
＞北は南と文字が異なっているのか。

日本語勉強しろよゴミカスが

マジでゴミなんだな

**デフォルトの名無しさん** · 2011/10/25(火) 22:25:08.62

　　　　　 ∩＿＿＿∩
　　　　　 | ノ　　　　　ヽ
　　　　　/　　●　　　● |
　　　　 |　　　　( _●_)　ミ
　　　　彡､　　丶ノ　　､｀
　　　/　＿＿/ ⌒｀＼／⌒/
　　　(＿＿＿）　 .　 /　　(　)
　　　　|　　　⌒｀＼/／⌒
　　　入＿へ　＼_ へ　＼_
　@三三三三（_＿__)三（_＿__)三三)

**デフォルトの名無しさん** · 2011/10/25(火) 22:39:19.15

>>325
金正日を意味する特殊な文字が追加されてるらしいんだな。漢字で言うと「朕」みたいなもんだろ。

**デフォルトの名無しさん** · 2011/10/25(火) 23:00:40.79

斎藤、斉藤、齋藤、齊藤
おまえら少しは反省しろ

**デフォルトの名無しさん** · 2011/10/26(水) 00:03:12.66

「そ」を１筆で書くのか２筆で書くのかくらいの違いはある

**デフォルトの名無しさん** · 2011/10/26(水) 14:40:03.49

>>329
何を？

**デフォルトの名無しさん** · 2011/10/27(木) 04:55:47.65

山崎、山嵜、山﨑
やまざき？　やまさき？

**デフォルトの名無しさん** · 2011/10/30(日) 10:23:28.18

　　　　 ∧＿∧
　ﾋﾟｭｰ (　　＾＾）＜これからも山崎を応援して下さいね（＾＾）。
　　＝〔~∪￣￣〕
　　＝ ◎――◎ 　　　　　　　　　　　　　　　　　　　　　山崎渉

**デフォルトの名無しさん** · 2011/12/13(火) 16:57:33.87

__∧＿∧_
　|（　　＾＾）|　＜寝るぽ（＾＾）
　|＼⌒⌒⌒＼
　＼ |⌒⌒⌒~|　　　　　　　　　山崎渉

**デフォルトの名無しさん** · 2011/12/13(火) 18:21:01.09

>>1
一番単純な答えは、JISの出来が悪かったから、というものだと思う。

**デフォルトの名無しさん** · 2011/12/14(水) 22:02:31.30

日本語の文字コードがいくつもある理由
http://qpon.at.webry.info/201112/article_14.html

**デフォルトの名無しさん** · 2012/01/04(水) 00:38:14.32

IVSというかUnicodeに見る日本政府のダメな感じ
ttp://wontfix.blogspot.com/2011/05/ivsunicode.html

**デフォルトの名無しさん** · 2012/01/04(水) 05:48:12.54

この人の文字コードに対する理解力がダメな感じ

**デフォルトの名無しさん** · 2012/01/04(水) 11:38:46.62

IVSは同一字形でも包摂しない、という原則じゃなかったっけ？というか同一字形かどうか
わからないから、だったかも。そもそもIVSで区別されているのはグリフであって文字ではないわけで。

**デフォルトの名無しさん** · 2012/07/25(水) 17:25:52.49

**デフォルトの名無しさん** · 2012/08/22(水) 23:46:05.05

>>322
・文字集合はIBMホストコードに合わせてあって
・符号の順序はJIS順になっていて
・1978年版、1983年版、1990年版をそつなくこなし
・JISの水準外の文字はJISの区点内にも区点外のどちらにもある
とどめに
・半角カタカナと一緒に使える
ってことだな

**デフォルトの名無しさん** · 2012/10/07(日) 12:14:01.29

**デフォルトの名無しさん** · 2012/11/29(木) 11:16:09.54

空揚げ

**デフォルトの名無しさん** · 2012/11/30(金) 12:55:47.17

そんなこんなで本スレが落ちてしまったわけだが

**デフォルトの名無しさん** · 2012/11/30(金) 13:22:07.85

文字コード総合スレ part8
http://toro.2ch.net/test/read.cgi/tech/1354248962/
文化の数だけ文字がある

**デフォルトの名無しさん** · 2012/12/01(土) 00:25:34.28

>>345
乙

忍法帖【Lv=3,xxxP】(1+0：5) · 2013/11/28(木) 00:46:29.39

あげ

**デフォルトの名無しさん** · 2014/08/29(金) 20:54:32.09

★2ch勢いランキングサイトリスト★

☆ +ニュース板
・ 2NN
・ 2chTimes
☆ +ニュース板新着
・ 2NN新着
・ Headline BBY
・ Unker
☆ ニュース板他
・ Desktop2ch
・記者別一覧
・スレッドランキング
☆ 全板
・全板縦断勢いランキング
・ 2勢
・ READ2CH
・ i-ikioi

※ 要サイト名検索

**デフォルトの名無しさん** · 2014/08/29(金) 21:47:32.66

http://www.buzzword.jp/img/face10.png

**デフォルトの名無しさん** · 2014/11/19(水) 16:18:55.03

ㄘんㄘんㄟ⁰ㄋㄟ⁰ㄋㄜㄝㄋ

**デフォルトの名無しさん** · 2014/11/19(水) 18:54:03.45

だいたい１バイトのアスキーコードを、２バイトにして日本語を
表示できるようにしたり、それをさらに、３バイトとか４バイトに
増やすとか、チマチマそんなことしてきたから、いろんな文字コード
作られてワケワカメになったんだろ。
もうこの際、全ての言語や記号など全部表せるように、
文字コードは１文字１６バイトくらいにして、
全ての文書にこのコードを使う事を強制すればいい。
１６バイトもあれば、困ることは無いだろう。

**デフォルトの名無しさん** · 2014/11/19(水) 19:53:15.84

ㄘωㄘωㄟ⁰ㄋㄟ⁰ㄋㄜㄝㄋ

**デフォルトの名無しさん** · 2014/11/20(木) 00:22:16.17

>>351
これ、釣りなのかな。

**デフォルトの名無しさん** · 2014/11/20(木) 10:27:23.90

(｡☉౪ ⊙｡)
(｡◕ฺˇε ˇ◕ฺ｡）
(｡◕ิ_◕ิ｡)
(｡◕ˇдˇ◕｡)
(｡◕ˇ_ˇ◕｡)
(｡╹ω╹｡)
(｡╹ω╹｡)
(｡≖ิ‿≖ิ);
(｡•́︿•̀｡)
(｡ó .̫ ò｡)
(｡´ސު｀｡)
色々あるんやね

**デフォルトの名無しさん** · 2014/12/05(金) 00:46:33.27

>>351
データ容量が無駄

**デフォルトの名無しさん** · 2014/12/05(金) 10:32:24.04

将来ジャミング暗号化に使われそうなアルゴリズムだな

**デフォルトの名無しさん** · 2016/03/29(火) 09:28:41.71

サッカーブッシュ日本代表日程ぷあたん（しゅっちょうまいくろ教育長交代）春文執行40代売上差額シュガーチョコ
https://www.youtube.com/watch?v=NDq1QoJY0nY宇ドナルドアナリストパワーストーンコーチングとしまえん
サッカーブッシュ日本代表日程古本屋よしたけしゅっちょうちょこしゅがー
ディーラー税務署天才開発者死亡詰みヨミドクターマイクロサービス不足
サッカーブッシュ日本代表日程ぷあたんシフト光金さかい強制バイト人権侵害問題
春分資源執行ニューヨーク低原価ぼったステーキソルトレイク福岡横浜新橋奴隷課金パチシフト強制バイト問題新潟米センター生残
コスメ２４チャリティー隠れ40代生活保護プレイボーイバイトレードいたりあん接待問題
マスコミKARDローンケーオーサービス不足婚活パーティー寄付金執行原発ビジネス
FBIチャイニーズタイホテル売上事務所ガチャ決算ガチャキャンペーン（販売報道陣過激派組織向携帯最新情報提供終了
校長発言細心注意ノートン産廃エラー(著作権クレーム中国反応融資高額教育費)(中国捕鯨団体40代社員サッカーコメント
高額入学金ヤフウ新橋大学ヤフウ新橋理事長FX経費おじや50代資産ガリバズフィード40代エリート

**デフォルトの名無しさん** · 2016/08/29(月) 19:33:30.09

1978年
JIS C 6226が成立。

1981年
当用漢字表が廃止されて常用漢字表が告示される。
それまでの1850字に95字が追加され1945字になる。
その95字が全てJIS第一水準。一体何があったのか。

**358** · 2016/08/29(月) 19:39:42.82

ここで勝手に憶測。
1.
78JISが成立した時点で、文部省が通産省に圧力をかけて、将来の常用漢字に
入れたくない字を無理やり第2水準に追いやった。

2.
常用漢字表を作る際に、第2水準の字を加える事を第2水準であるという理由で拒否。
何としてでもなるべく字を増やしたくないという口実にJISが利用された。

**358** · 2016/08/29(月) 21:29:18.35

2010年11月30日
常用漢字表改定
196字追加、5字削除、2136字となる。
1881年とは時代が違う社会が違う、という事か、JIS第2水準の字も多く追加された。
第3、第4水準の字すら入っている。
もしJISの83改定がなければ殆ど第2水準で済んでいた。

**358** · 2016/09/02(金) 16:08:22.98

文部科学省の常用漢字表にはJISコードが記載されていない。まさに縦割り行政だ。
常用漢字の通し番号も無い。
一般的にはこれで困る人はいない。だがそれでいいのか。
法律の如き、あるいは数学の如き厳密さを求めると、常用漢字表の字とJIS規格票の字が
同じ字であるとは見なせない。
民間の漢和辞典にはJISコードの記載があるが、その厳密な根拠はどこにも無いという事になる。
国が率先して論理的思考を実践してほしい。

**デフォルトの名無しさん** · 2016/12/07(水) 00:05:59.62

意味もなく Age。
JIS漢字にしても、まるぶん漢字にしても、日常生活に結構影響が出ている。
同級生のパパ、議員やっていたんだが、該当する漢字がなくて、全部当て字で済ましている。
姓の歴史を見ればわかる通り、明治の初めに姓が法制化された。
漢字が書けないことが多くて、近所(?、1泊で往復できるぐらいの距離)のエライ坊さんのところに行って漢字を教えてもらった。
これが、同音の文字を崩して、別の意味を持たせた。
地名も同様なものがある。
社名も、鉄を使わない(金を失う)ではなく、旧字を使うとロコがある。

Toron コードでは大体そろっていたはずなんだけど、見ていないからわからない。

**デフォルトの名無しさん** · 2016/12/08(木) 21:34:23.40

Toronコード

**デフォルトの名無しさん** · 2016/12/11(日) 14:59:51.79

>>1
マイナーな文字コードは徹底的に無視して、淘汰すればいい
「サポートしなければならない」という糞みたいな固定観念を
捨てることが大事。

**デフォルトの名無しさん** · 2016/12/24(土) 00:11:12.03

漢字コードは浮動小数点数コードにしとけばよかったんだよな

**デフォルトの名無しさん** · 2016/12/24(土) 06:02:44.63

現実世界の方言は好き

**デフォルトの名無しさん** · 2016/12/26(月) 20:12:45.34

まともなこと言ってる方が駆逐される不思議な国ニッポン
http://nukalumix.hateblo.jp/entry/nenkin_iroha
https://www.taro.org/2016/12/%E3%81%84%E3%82%8D%E3%81%84%E3%82%8D%E3%82%A4%E3%83%AD%E3%83%8F%E3%81%AA%E7%9A%86%E6%A7%98%E3%81%B8.php
http://nlab.itmedia.co.jp/nl/articles/1612/12/news127.html

**デフォルトの名無しさん** · 2017/02/09(木) 16:30:11.04

最初5bitから始まった話とかロッキングシフトの話とかからの話から始まると思ったら、ここまで出てこないのは何なの?

**デフォルトの名無しさん** · 2017/08/29(火) 22:15:11.99

ローマ字で日本語の長音を表現するのにサーカムフレックスまたはマクロンの付いた
アルファベットが有ると便利。というか必要。
しかしこれが長い間JISに採用されなかった。
ローマ字主義者と反対派の血みどろの戦いが繰り広げられ、ローマ字主義者が
負け続けたのだろうか。

**デフォルトの名無しさん** · 2018/01/08(月) 11:02:55.15

ユニコードですら絵文字で大混乱してるからな

**デフォルトの名無しさん** · 2018/01/08(月) 12:10:38.61

明らかに文字化けって判るような壊れ方ならまだいいけど

送信側が↑↑↑で送信してるのに
受信側で↓↓↓って表示されてたり

って普通にあるからなー

**デフォルトの名無しさん** · 2018/01/08(月) 12:45:25.22

絵文字の正規表現に対応しているのは、Ruby 2.4 以降だけかも

**デフォルトの名無しさん** · 2018/01/09(火) 03:13:02.13

うんこ騒動はなぜ起きた？

**デフォルトの名無しさん** · 2018/01/20(土) 12:34:45.37

本スレ落ちそう
http://www.gakkai.ne.jp/jss/bulletin/guide1.php

**デフォルトの名無しさん** · 2018/01/22(月) 23:21:50.19

文字コード総合スレ Part11
https://mevius.5ch.net/test/read.cgi/tech/1516629503/

立てた。

**デフォルトの名無しさん** · 2018/01/24(水) 05:29:19.56

>>375
おつん

**デフォルトの名無しさん** · 2018/01/28(日) 15:12:12.86

>>368
おお、同志よ。

たぶん、文字コードに詳しく無い人が多いからだろうね。
ここにいる人達はあまり詳しい人がいないみたい。
俺も詳しく無いけど。

混迷期の読み物を興味深く読むのは面白い。