文字コードの種類は何故複数あるのでしょうか?
1つにしてくれればPGが苦労することはなくて
、ミンナうれしいはずなのに。 >>275
言葉自体が曖昧。
まず、Windowsは内部ではファイル名をutf-16で管理してる。
そして、fopenは実装依存。とりあえずVC++のfopenで、日本語ロケールでの使用を想定する。
つまりfopenはcp932(sjisのMS拡張と思ってよし)でエンコードされたchar*をとって、内部でutf-16に変換してる。
そういう意味で、全ファイル名がUNICODE文字列であって、fopenではcp932を経由してUNICODE文字列のファイル名を開ける、と言える。
あるいは、cp932入れるべきところに強引にUNICODE文字列をねじこんで、
それをWindowsが内部でcp932のつもりでutf-16に変換したもの、という意味なら。
まず、それがファイル名として妥当なものになるのか(つまり、そんなファイル作れない。ないものは読めない)というのがひとつ。
次に、UNICODE文字列とはutf8か16か32か(あるいは7か...)。
16,32ならNULを含むことになって作れないだろうなぁ。
8なら、sjisのバックスラッシュ問題にコンパイラが対応してるか、ユーザが小細工してるか。
それによって別の文字になるので調整しないといけないが、うまくすれば読める。 >>278
なんでファイル名にUNICODE使えるのかの話で
cp932を持ち出してるの? WindowsではfopenにASCII非互換のSJISなどを
認めてしまったため、ASCII互換のものならなんでも受け付けられる
なんて変更は出来なかった。
そのためUNICODEに対応するには、fopenではない
別の関数を使うしかない。それが_wfopen(MS独自関数)ただし
これはUNICODE(UTF-16)限定のためWin9xでは動かない。
そのために_tfopenというマクロが作られた。これを使っていると
define定数でfopen、_wfopenどちらを使うか自動的に変更できる。
これは関数だけではなく、文字列も一緒で、L”文字列"なんて書き方をすると
自動的に変換してくれるがなんか_Tマクロとか_TEXTマクロとかいろいろあって
誰か、きれいにまとめて書いてくれ。
めちゃくちゃすぎてわからん。あぁ、fopenだけでUTF-8で
もEUC-JPにもなんにでも対応できるLinux楽だよ。 >>280
>>278を読んだのにその疑問が沸いたのなら、君でも分かるように説明するのはあまりに面倒だ。
>>281
で、Linuxに関しては>>267でいいの? あと>>274にも異論は無い? _Tマクロとか_TEXTマクロとかWindowsのマクロの種類は何故複数あるのでしょうか? 文字コード処理の種類はCSI方式とUCS normalization方式と何故複数あるのでしょうか? >>295
正式にはnettowa-ku kanji firuta-の略だっけ。 コードの種類は何故複数あるのでしょうか?
ストレートとクロスの見分けが付きません。 ソースといえばブルドック?おたふく?
あなたはどちら? >>301
両端のコネクタを並べてみて、色が同じ順ならストレート、違う順ならクロス。 >>302
中部地方はコーミソースに決まってんだよ。ブルドッグ何それ。 ソースの種類は何故複数あるのでしょうか?
ソースを買ってくるように頼まれてソイソースを買ってきたら怒られました。 そりゃ醤油はソースとは認められないからな。
次はちゃんとソースを買ってくるんだぞ。 >>283 自分用メモ
WindowsSDKレベルではではTCHARとTEXTか__TEXTのみ有効
その他はCランタイムのもので混用すべきではない UNICODEがSDK用で_UNICODEがCRT用だっけ それは言語機能でMSは関係ないな
もっともMS以外ではワイド文字がUTF-16とは限らないけど もっとも、 <windows.h>の中のどこかのヘッダで以下のような旨の記述があり、
「_UNICODEとUNICODEのどちらか一方は定義してあるけど、もう片方は定義されていない」
という状況を排除しているので、_TとTEXTを混在させても問題ない。
#ifdef UNICODE
#ifndef _UNICODE
#define _UNICODE
#endif
#endif
#ifdef _UNICODE
#ifndef UNICODE
#define UNICODE
#endif
#endif スレ全体検索したけど完全なんて文字は>>323しかない件 森鴎外の「鴎」は正しくは「鷗」である。
草なぎ剛
草g剛
北朝鮮に文字コードは割り振られているのか?
マイクロソフトは、南朝鮮の町工場に北の象形文字をOSに実装してくれと
懇願されたが拒否したらしいが。直接北から要求しなかった。
北は南と文字が異なっているのか。
unicodeに北文字あったか?存在するなら規格票、文献を提示してくれ。
>マイクロソフトは、南朝鮮の町工場に北の象形文字をOSに実装してくれと
>懇願されたが拒否したらしいが。直接北から要求しなかった。
>北は南と文字が異なっているのか。
日本語勉強しろよゴミカスが
マジでゴミなんだな ∩___∩
| ノ ヽ
/ ● ● |
| ( _●_) ミ
彡、 丶 ノ 、`
/ __/ ⌒`\/⌒/
(___) . / ( )
| ⌒`\//⌒
入_ へ \_ へ \_
@三三三三 (____)三(____)三三) >>325
金正日を意味する特殊な文字が追加されてるらしいんだな。漢字で言うと「朕」みたいなもんだろ。
「そ」を1筆で書くのか2筆で書くのかくらいの違いはある ∧_∧
ピュー ( ^^ ) <これからも山崎を応援して下さいね(^^)。
=〔~∪ ̄ ̄〕
= ◎――◎ 山崎渉 __∧_∧_
|( ^^ )| <寝るぽ(^^)
|\⌒⌒⌒\
\ |⌒⌒⌒~| 山崎渉 >>1
一番単純な答えは、JISの出来が悪かったから、というものだと思う。 IVSというかUnicodeに見る日本政府のダメな感じ
ttp://wontfix.blogspot.com/2011/05/ivsunicode.html IVSは同一字形でも包摂しない、という原則じゃなかったっけ?というか同一字形かどうか
わからないから、だったかも。そもそもIVSで区別されているのはグリフであって文字ではないわけで。 >>322
・文字集合はIBMホストコードに合わせてあって
・符号の順序はJIS順になっていて
・1978年版、1983年版、1990年版をそつなくこなし
・JISの水準外の文字はJISの区点内にも区点外のどちらにもある
とどめに
・半角カタカナと一緒に使える
ってことだな ★2ch勢いランキングサイトリスト★
☆ +ニュース板
・ 2NN
・ 2chTimes
☆ +ニュース板新着
・ 2NN新着
・ Headline BBY
・ Unker
☆ ニュース板他
・ Desktop2ch
・ 記者別一覧
・ スレッドランキング
☆ 全板
・ 全板縦断勢いランキング
・ 2勢
・ READ2CH
・ i-ikioi
※ 要サイト名検索 だいたい1バイトのアスキーコードを、2バイトにして日本語を
表示できるようにしたり、それをさらに、3バイトとか4バイトに
増やすとか、チマチマそんなことしてきたから、いろんな文字コード
作られてワケワカメになったんだろ。
もうこの際、全ての言語や記号など全部表せるように、
文字コードは1文字16バイトくらいにして、
全ての文書にこのコードを使う事を強制すればいい。
16バイトもあれば、困ることは無いだろう。 (。☉౪ ⊙。)
(。◕ฺˇε ˇ◕ฺ。)
(。◕ิ_◕ิ。)
(。◕ˇдˇ◕。)
(。◕ˇ_ˇ◕。)
(。╹ω╹。)
(。╹ω╹。)
(。≖ิ‿≖ิ);
(。•́︿•̀。)
(。ó .̫ ò。)
(。´ސު`。)
色々あるんやね 将来ジャミング暗号化に使われそうなアルゴリズムだな サッカーブッシュ日本代表日程ぷあたん(しゅっちょうまいくろ教育長交代)春文執行40代売上差額シュガーチョコ
https://www.youtube.com/watch?v=NDq1QoJY0nY宇ドナルドアナリストパワーストーンコーチングとしまえん
サッカーブッシュ日本代表日程古本屋よしたけしゅっちょうちょこしゅがー
ディーラー税務署天才開発者死亡詰みヨミドクターマイクロサービス不足
サッカーブッシュ日本代表日程ぷあたんシフト光金さかい強制バイト人権侵害問題
春分資源執行ニューヨーク低原価ぼったステーキソルトレイク福岡横浜新橋奴隷課金パチシフト強制バイト問題新潟米センター生残
コスメ24チャリティー隠れ40代生活保護プレイボーイバイトレードいたりあん接待問題
マスコミKARDローンケーオーサービス不足婚活パーティー寄付金執行原発ビジネス
FBIチャイニーズタイホテル売上事務所ガチャ決算ガチャキャンペーン(販売報道陣過激派組織向携帯最新情報提供終了
校長発言細心注意ノートン産廃エラー(著作権クレーム中国反応融資高額教育費)(中国捕鯨団体40代社員サッカーコメント
高額入学金ヤフウ新橋大学ヤフウ新橋理事長FX経費 おじや50代資産ガリバズフィード40代エリート 1978年
JIS C 6226が成立。
1981年
当用漢字表が廃止されて常用漢字表が告示される。
それまでの1850字に95字が追加され1945字になる。
その95字が全てJIS第一水準。一体何があったのか。 ここで勝手に憶測。
1.
78JISが成立した時点で、文部省が通産省に圧力をかけて、将来の常用漢字に
入れたくない字を無理やり第2水準に追いやった。
2.
常用漢字表を作る際に、第2水準の字を加える事を第2水準であるという理由で拒否。
何としてでもなるべく字を増やしたくないという口実にJISが利用された。 2010年11月30日
常用漢字表改定
196字追加、5字削除、2136字となる。
1881年とは時代が違う社会が違う、という事か、JIS第2水準の字も多く追加された。
第3、第4水準の字すら入っている。
もしJISの83改定がなければ殆ど第2水準で済んでいた。 文部科学省の常用漢字表にはJISコードが記載されていない。まさに縦割り行政だ。
常用漢字の通し番号も無い。
一般的にはこれで困る人はいない。だがそれでいいのか。
法律の如き、あるいは数学の如き厳密さを求めると、常用漢字表の字とJIS規格票の字が
同じ字であるとは見なせない。
民間の漢和辞典にはJISコードの記載があるが、その厳密な根拠はどこにも無いという事になる。
国が率先して論理的思考を実践してほしい。 意味もなく Age。
JIS漢字にしても、まるぶん漢字にしても、日常生活に結構影響が出ている。
同級生のパパ、議員やっていたんだが、該当する漢字がなくて、全部当て字で済ましている。
姓の歴史を見ればわかる通り、明治の初めに姓が法制化された。
漢字が書けないことが多くて、近所(?、1泊で往復できるぐらいの距離)のエライ坊さんのところに行って漢字を教えてもらった。
これが、同音の文字を崩して、別の意味を持たせた。
地名も同様なものがある。
社名も、鉄を使わない(金を失う)ではなく、旧字を使うとロコがある。
Toron コードでは大体そろっていたはずなんだけど、見ていないからわからない。 >>1
マイナーな文字コードは徹底的に無視して、淘汰すればいい
「サポートしなければならない」という糞みたいな固定観念を
捨てることが大事。 漢字コードは浮動小数点数コードにしとけばよかったんだよな 最初5bitから始まった話とかロッキングシフトの話とかからの話から始まると思ったら、ここまで出てこないのは何なの? ローマ字で日本語の長音を表現するのにサーカムフレックスまたはマクロンの付いた
アルファベットが有ると便利。というか必要。
しかしこれが長い間JISに採用されなかった。
ローマ字主義者と反対派の血みどろの戦いが繰り広げられ、ローマ字主義者が
負け続けたのだろうか。 明らかに文字化けって判るような壊れ方ならまだいいけど
送信側が↑↑↑で送信してるのに
受信側で↓↓↓って表示されてたり
って普通にあるからなー 絵文字の正規表現に対応しているのは、Ruby 2.4 以降だけかも >>368
おお、同志よ。
たぶん、文字コードに詳しく無い人が多いからだろうね。
ここにいる人達はあまり詳しい人がいないみたい。
俺も詳しく無いけど。
混迷期の読み物を興味深く読むのは面白い。