文字コード総合スレ Part10 [転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:29:00.08ID:xctG4AAd
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
2016/02/09(火) 11:31:59.64ID:gJW4evIq
>>200
最多はwordでunicodeでしょ
ちなみにwordをunicode化したのは日本人
2016/02/09(火) 11:32:56.66ID:gJW4evIq
MSは昔からAPIを移行改善していくのが下手
2016/02/09(火) 22:21:12.66ID:K12Uxl59
電話用のWindowsもCP932とUTF16ならそのまま安らかに死んでほしいんだけどどうなん?
2016/02/09(火) 22:44:37.32ID:AjhTI0tJ
死ぬことはないよ
生まれてすらいないからね
2016/02/10(水) 05:29:25.59ID:ShaMeiRT
産まれる前に死ぬってあると思うけど?
2016/02/10(水) 20:10:05.19ID:NIAqtvX5
文字コードはUnicodeで統一されつつあるけど
改行コードが統一される動きはないよな
2016/02/10(水) 20:11:34.12ID:jTWkF3R0
>>187
英語だけなら問題ないが日本語でコメントかくととたんにやっかい
おそらくwinの内部処理がutf16なんでvcでコンパイラ作る→utf16しか受け付けない
になるんだと思う
2016/02/10(水) 20:14:06.58ID:DqOeVQNQ
何言ってんだこいつ
2016/02/10(水) 20:19:14.56ID:urcLBA+T
おまえはお馬鹿な発言する人にいつもくってかかるのか
2016/02/10(水) 20:27:11.86ID:jTWkF3R0
>>208>>209
バカ乙
2016/02/10(水) 20:58:07.57ID:DqOeVQNQ
絵に描いたような「バカと言う奴がバカ」
2016/02/10(水) 22:46:23.85ID:MNP/EF3f
最近のMSVCはUTF-8のソースコード食ってくれるよ
新しくMSVCで読み込んだソースがUTF-8なのにBOMがないと自動判定に失敗して意味不明なコンパイルエラーになることも多いけど
2016/02/11(木) 00:53:59.61ID:V6zkYN3z
>>206
そうか?
ローカルデータで復帰付けてるのWindowsくらいじゃないか?
HTYP, SMTPなんかは復帰改行だけど
2016/02/11(木) 21:55:56.34ID:xlY9kt9Q
1バイトの英数字を平仮名と同じ幅で表示するフォントがあれば
全角英数字は使わないと思うんだが全角英数字も互換性のためだけに残されていると考えていいのか
2016/02/11(木) 23:11:32.22ID:e91ojKTo
>>214
JIS X 0208は、ASCIIやJIS X 0201と併用せずに使うことも想定されてる
だから文字集合に英数記号が含まれるのは当然
併用する場合ISO 2022的には重複符号化禁止だから本来使っちゃいけない
けど運用では守られてなかったし、併用前提の文字コードもあった
Unicodeは過去の利用例をほぼ取り込むのが前提だから
互換文字として全角文字を取り込んだ
2016/02/11(木) 23:19:16.34ID:sKuqfOHl
ではU+3000が互換文字領域に無いのは何故なんだぜ
2016/02/11(木) 23:22:30.10ID:e91ojKTo
なんとか空白はどうしても入れたい奴があったから全部入れることにしたんじゃないのかね
最初から20種類くらいあったでしょ
2016/02/12(金) 00:18:36.22ID:VRdJSDW+
つまり全角を貫いたおおたさん大勝利ってことだな
2016/02/12(金) 14:58:04.35ID:E8URvzDX
空白もそうだけど横棒も統合せずに放り込んだのが多すぎ
U+2015 HORIZONTAL BARってどこから生えて来たんだろ
2016/02/12(金) 22:43:58.37ID:06flQvvq
VERTICALなら生えてきそうだけどHORIZONTALに生えるイメージは無いな
2016/02/13(土) 10:24:02.68ID:vrowrAaX
————
――――
2016/02/13(土) 21:46:29.51ID:UfGCg9+I
>>211
先に208でバカにしてきたのは208なんだが語るに落ちてねーか?
それとも「バカという単語は書いてないから自分はセーフ」ってことだろうか
バカの考えることはわからん
2016/02/13(土) 21:50:44.90ID:DWYdQVEl
バカの考えること=お前の考えること

自分が何考えてるかもわかんないなら救いようがないな。清原と一緒に逮捕されてろ
2016/02/15(月) 00:32:04.19ID:ntkpNKWd
>>212
もうすぐUpdate2で改善されるからそれまで待て
2016/02/15(月) 16:58:33.36ID:4pgZ8RvT
>>221
上がU+2014 EM DASHで
下がU+2015 HORIZONTAL BAR?
EM DASHは並べても切れて見えるなフォント次第だろうけど
2016/02/16(火) 07:17:36.55ID:XdPvZNKx
>>223
なんだ適当に言葉並べてるだけか
人工無能の方がマシだなこりゃ
おバカさん
2016/02/20(土) 22:49:46.68ID:2GCqu0fo
MS-excelのcodeという関数の出力がShift-JISだと勘違いしていた初心者の俺。
あやうく大恥をかく前に気づいてセーフ。
2016/02/24(水) 01:54:36.77ID:hnpOvXF7
UNICODEが年々キモくなるんですけど、新しいモジコードは開発されていますか(´・ω・`)?
2016/02/24(水) 12:06:50.24ID:9rhAu1z5
>>228
君の出番だよ
君が第二の坂村健だ
2016/02/24(水) 17:55:57.73ID:zehZo7UI
完成してMicrosoftとAppleとGoogleとLinuxが採用したら知らせてくれ
2016/02/24(水) 20:07:26.11ID:Tso1kbi5
バイトオーダーがややこしいから1byteを1bitにするか
逆に1byteを64bitなどの大きい値にしたらどうよ?
コンピューターの黎明期は1byteが8bit以外の物もあったんだから
それも不可能ではないだろう。
2016/02/24(水) 20:26:02.29ID:JXxoXIUe
馬鹿って馬鹿だよね
2016/02/25(木) 00:25:47.28ID:loBITXzr
>>231
コンピュータの黎明期はbyteと云う単位ではなくて、Wordという単位だったと
思いますよ。1word何byteとかいっていて、コンピュータによって、Wordのbit数が
違っていたように思います。
大体1短Wordが20bit+1符号bit,1長wordが短wordの2倍で40bit+1符号bitというのが
普通だったとおもいますが、CDCの3600は、1短wordが32bit、1長wordが64bitではなかった
かと思います。
なにしろ、1960年代のことなので、記憶違いがあるかもしれません。
2016/02/25(木) 20:46:03.90ID:BzGy0Z9t
Unicodeに何が追加されようと大半の日本語フォントはAdobe-Japan1-6準拠だから
ほとんど恩恵がない
AdobeはPanCJKなんて漢字マニアしか喜ばないものを作ってないで
そろそろAJ17に取り掛かってくれ
2016/02/26(金) 12:15:47.32ID:YTHIspbV
Wordは今でも使うだろ普通に。
昔あったのはWord機、生き残りがByte機。
2016/02/26(金) 17:03:45.40ID:iAHBb9xH
>>152
安岡センセイ大敗北w
http://srad.jp/%7Eyasuoka/journal/600756
2016/02/26(金) 19:35:56.60ID:Ckpzri88
>>235
byteかwordかというのは
アドレッシング
アクセス最小単位
アラインメント
と3つの軸があって
最後のはbyte単位でないのが主流
2016/02/26(金) 19:54:30.62ID:d58rhTQn
キモはアルゴリズムでデータソースでしかないものに文句つけてもイチャモンでしかないだろう
知らんけど
2016/02/26(金) 21:57:25.44ID:jlaESRTF
アルゴリズムもバグってるみたいよ
2016/02/27(土) 01:15:53.58ID:1kXiMiWp
>>237
アーキテクチャ上は最後のも大丈夫なんじゃないの?
メモリにアクセスするハードウェア側のインタフェースの話じゃないよね。
2016/03/02(水) 11:22:17.92ID:5SSZmY+T
カタカナが多すぎて頭こんがらんがってきた
2016/03/02(水) 13:37:01.48ID:H2CN+/B0
トゥゲザーしようぜ
2016/03/02(水) 13:52:03.06ID:Pi6Moa3o
シェアしたいと思います
2016/03/04(金) 11:07:29.81ID:aAJqKKxk
1文字に32bit使うなら一般的な組み合わせの合成文字は
全て合成済み文字にしてコードを割り当てても足りるんじゃないだろうか
そうして合成文字は外字のようなオプション的な扱いにしたらいいと思うんだけどね
2016/03/04(金) 11:29:46.53ID:ex0V5X9T
何のいみがあるのかわからんなあ
2016/03/04(金) 12:41:46.94ID:aAJqKKxk
>>245
一般的な文字では32bit固定長にできる
2016/03/04(金) 13:27:03.56ID:qO6Wo8x7
「一般的な組み合わせ」が不変ならいいけど、現実にはいくらでも流動しちゃうのが問題じゃないかな。
これまでにも「今の用途ならこれだけあれば十分」って感覚で半端に作られた負の遺産がたくさんあるよね。

合成文字の仕組み自体を全廃・強制力付きで禁止するのならともかく、
オプションとして残すのなら新たに余計なものを作っただけで終わるのが見えてる。
2016/03/04(金) 18:21:11.26ID:IERVyLvo
ISO/IEC 6937対ISO/IEC 8859シリーズの戦いはもう勘弁
2016/03/15(火) 10:56:22.12ID:ZYJuXZMf
>>228
Unicodeで得られた知見を基に反省を活かして新しいのを作ってほしいね。
Unicodeもコンセプトは賛成だし規格に例外は付き物だけど、あまりにも継ぎ接ぎだらけでスパゲティコードみたいになってるのは清算したいね。
2016/04/02(土) 13:20:35.07ID:raCNCQWh
Unicodeはバージョンアップ時に精算するのが得意な方
切り捨てバンザイ主義
これ以上切り捨てたら誰も使ってはくれない
2016/04/06(水) 17:49:51.21ID:APP4s98L
UTS #52: Unicode Emoji Mechanisms
http://www.unicode.org/reports/tr52/tr52-1.html

> 3.5 Hair Attribute
>
> Syntax
>
> Tag-Base   Hair_Base
> Tag-Key    Tag-H
> Tag-Value   Exactly one of the following tag-valueChars:
>        tag-valueChar Description
>        Tag-k Black-haired
>        Tag-s Blonde (also sandy-haired)
>        Tag-b Brown (Brunette)
>        Tag-r Redhead (Ginger)
>        Tag-g Gray-haired
>        Tag-n Bald (no hair)

漫画・アニメキャラ用に赤髪、ピンク髪、緑髪、青髪、水髪、紫髪なんかも加えるべきじゃないですかね。
2016/04/06(水) 18:29:57.08ID:qW+LkY/S
_人人人人人人人_
> Bald (no hair) <
 ̄Y^Y^Y^Y^Y^Y^Y ̄
2016/04/08(金) 13:36:54.32ID:9VpqQ38l
Δ彡⌒ミΔ
ξ ・ェ・ ξ
ξ    ξ
ξ    ξ  また髪の話してる。
ξ    ξ
ξ    彡⌒ミ
ξ    (´・ω・`)〇
ξ    (|   |)ξ
ξ    (γ / ξ
 uu〜〜〜し uu
2016/04/09(土) 00:11:15.96ID:QiRGiLFx
毛の色と量は別のパラメータだよね
2016/04/09(土) 00:17:51.71ID:EyctzspR
赤毛のつるっぱげと
黒髪のつるっぱげと
ブロンドのつるっぱげの
区別を付ける意味はあるのかなあ。
2016/04/09(土) 01:58:16.39ID:ncpORidQ
眉毛の色も変わるんじゃね
2016/04/11(月) 18:05:35.93ID:qAYYUQ+e
>>251
色はスタイルシートとか他の技術で実現しろよな
そのうちRGB指定とか出てくるぞこれ
2016/04/19(火) 18:55:29.59ID:y8aUhLXK
コンソーシアムはアホばっか。
結局駆け引きとかゲーム楽しんでるだけじゃん。
2016/04/22(金) 16:03:00.18ID:20ytlDG9
ヘアスタイルや髪の色、眼鏡やら帽子やらはUnicodeの範囲の対象外だよとか言ってたのは何だったんだろう
2016/04/28(木) 04:05:36.64ID:m6Hq/pUS
完全にMark Davisに振り回されてる
2016/04/30(土) 16:00:17.78ID:Hd4l7uwV
禿は髪の色じゃなくてヘアスタイルだろ
てっぺん禿、後退禿、つるっ禿と種類もある
禿差別が凄い
2016/04/30(土) 16:37:37.68ID:n4ETaU8X
ちょんまげとか辮髪とかと同列のタグだよね
2016/05/01(日) 09:46:27.59ID:w66eLaS8
イラストのための仕様拡張なんか合理的な理由が全くないわ
文字から切り離して絵のフォーマットにすればいいじゃん
264デフォルトの名無しさん
垢版 |
2016/05/01(日) 11:04:17.70ID:tKi6j9CT
匿名通信(Tor、i2p等)ができるファイル共有ソフトBitComet(ビットコメット)みたいな、
BitTorrentがオープンソースで開発されています

言語は何でも大丈夫だそうなので、P2P書きたい!って人居ませんか?

Covenantの作者(Lyrise)がそういう人と話したいそうなので、よろしければツイートお願いします
https://twitter.com/Lyrise_al

ちなみにオイラはCovenantの完成が待ち遠しいプログラミングできないアスペルガーw


The Covenant Project
概要

Covenantは、純粋P2Pのファイル共有ソフトです

目的

インターネットにおける権力による抑圧を排除することが最終的な目標です。 そのためにCovenantでは、中央に依存しない、高効率で検索能力の高いファイル共有の機能をユーザーに提供します

特徴

Covenant = Bittorrent + Abstract Network + DHT + (Search = WoT + PoW)

接続は抽象化されているので、I2P, Tor, TCP, Proxy, その他を利用可能です
DHTにはKademlia + コネクションプールを使用します
UPnPによってポートを解放することができますが、Port0でも利用可能です(接続数は少なくなります)
検索リクエスト、アップロード、ダウンロードなどのすべての通信はDHT的に分散され、特定のサーバーに依存しません
265デフォルトの名無しさん
垢版 |
2016/05/18(水) 02:04:12.61ID:rFetSORz
 
      彡 ⌒ ミ
      (´・ω・`)
        U θ U  
    / ̄ ̄T ̄ ̄\
   |二二二二二二二|
   |        |
2016/06/07(火) 17:21:48.18ID:zLlkZGBv
http://www.unicode.org/emoji/charts/emoji-released.html#food-prepared
たこ焼きはまだか?
2016/06/08(水) 01:10:51.52ID:mh0+02By
NAUSEATED FACEってなんや。
外人は体調悪くなるとみんな顔緑色になるんか。
2016/06/08(水) 11:35:15.41ID:XFtKz/Go
この調子でどんどん絵文字を追加していくと
ついには新しい表意文字の体系が出来上がるよね
だけどコンピュータで扱う上では表音文字の方が合理的だったってことは
我々は痛いほどよくわかっているから、なんだかなーって気持ちになる
全ての物を一文字で表すのは大変なので
将来的に絵文字の熟語とか編み出されて
絵文字で会話するようになったらいやだなぁ
2016/06/09(木) 11:33:55.71ID:QkRZyBjx
>>268
>全ての物を一文字で表すのは大変なので

中国人「歓」

>将来的に絵文字の熟語とか編み出されて
>絵文字で会話するようになったらいやだなぁ

中国人「可不是」日本人「成程ね」
2016/06/20(月) 16:59:01.95ID:KYxI40Xs
ttp://d.hatena.ne.jp/NAOI/20080623/1214211959

絵文字の人物の肌の色やら髪の色を区別するならこういうのも区別してほしいわ〜。
バケツ頭かそうでないかは重要、俺的に
2016/06/21(火) 12:33:04.97ID:hiJvGdgU
unicode例示図形の画力の低さが光る
2016/06/22(水) 14:24:00.61ID:veMK4+iv
The Unicode Blog: Announcing The Unicode® Standard, Version 9.0
http://blog.unicode.org/2016/06/announcing-unicode-standard-version-90.html

Unicode 9.0.0
http://www.unicode.org/versions/Unicode9.0.0/
2016/06/22(水) 16:17:18.06ID:VKcfRnsb
なんか最近どんどん数字上がってね?Chromeみたい。
どんどんメジャーバージョン上げていく理由って何?
2016/06/24(金) 07:30:00.72ID:DNjTkSpS
>>273
絵文字量産してるからな
ろくすっぽ審議もせずどんどん入れてる
絵文字専用コードにすればいいのに
2016/06/24(金) 21:07:43.94ID:BJd4+ABn
本当、Unicode 1.X でやめとけば世の中平和だったのに。
276デフォルトの名無しさん
垢版 |
2016/06/26(日) 01:00:56.43ID:jrvEZcpa
まあ、サロゲートペアは無くても結合文字があるんですけどね……。
2016/07/04(月) 14:48:24.44ID:D0uzD5G8
ISO/IEC 10646:2014/Amd.2:2016がいつの間にか無料公開始まってたのな。
U+301C WAVE DASHの字形がISO/IEC 10646側でもやっと修正されたのか。
2016/07/06(水) 10:23:17.77ID:lhUlUm2p
安岡センセイ荒れてるな

http://srad.jp/~yasuoka/journal/604190/
>UTF-8は、ASCIIコードに当たる部分は1バイトで表し、
>それ以外の文字を2〜6バイトの可変長で表します。
>しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。

荒れるの当然か
279デフォルトの名無しさん
垢版 |
2016/07/06(水) 11:21:22.67ID:X105+0ra
これはひどい
2016/07/06(水) 19:46:06.13ID:j7TfNCeT
まじか。utf16採用してるwindows大勝利だな
(何度も言うがなんでutf8にしなかったんだよ。unixのツール使えなくてムカつくわ)
281デフォルトの名無しさん
垢版 |
2016/07/06(水) 20:19:51.63ID:gBn7auOK
>>280
表面はSJISだからだろ。
282デフォルトの名無しさん
垢版 |
2016/07/06(水) 22:02:39.94ID:wyF/Ksyo
漢字を正確に言葉で伝えるにはコードで表現するのが最も手軽で確実だと思うのだが、
あいにく当方の職場では誰もそうしようとしない。
和文通話表もアルファベットのフォネティックコードも使わない。
何しろ管理職にそういう発想が全くないのだからどうしようもない。

今のジジババはもう駄目だ。これからの若い世代に期待したい。
コード関係者、教育関係者の皆様、文字コードの概念を広く普及させてくださいませ。
2016/07/06(水) 22:43:23.48ID:7tNa29hq
>>278
合ってるで
2016/07/06(水) 23:02:26.86ID:73ByLRkJ
文字コードの話題で、他の規格に不寛容・攻撃的な人が多いのはなんでなんだろうねぇ?
mohtaの呪い?
2016/07/07(木) 02:40:42.16ID:p2jZ7JSr
たまにはEBSDICの事も思い出してあげてください
2016/07/07(木) 04:21:45.52ID:iN/cSWGV
ヱビス?
287デフォルトの名無しさん
垢版 |
2016/07/07(木) 07:50:53.33ID:zLr8XHI6
>285
エビスでなく、

EBCDIC
2016/07/07(木) 08:09:28.67ID:Xq4hCxWT
攻撃的はそうだけど、不寛容な人はあまり見かけないな。
それから、出所不明の誤ったことを自信満々に広めようとする人は多い。
289デフォルトの名無しさん
垢版 |
2016/07/07(木) 11:28:32.01ID:77RIzO9k
>>284
半角カナ気違いのトラウマだろうね
2016/07/07(木) 23:08:15.02ID:Fnd7xREL
昔、カナ漢字変換の機能が貧弱だった頃、第2水準漢字のほとんどは
コード直接入力じゃないと出せなかったらしい。
その時代を知っているジジババはむしろ若者よりもコードの知識があるかも。
291デフォルトの名無しさん
垢版 |
2016/07/08(金) 00:08:00.05ID:oeqNGrjL
>>290
その時代にワープロを使っている人間が少なすぎる。
2016/07/08(金) 09:37:59.75ID:RQ/bQ+xA
いまでも第2水準の読めないような漢字が出ないのは一緒では。特にスマホとかでは
2016/07/08(金) 12:53:57.37ID:+iCwFkYB
Windowsはいい加減にCP932やめればいいのに
2016/07/08(金) 13:56:23.18ID:SPYn5bNr
>>290
JIS区点コードな
さすがにいわゆるSJIS系の2バイト文字の話とか
UCS4とかUTF-8とかは通じないだろ
2016/07/08(金) 14:04:01.86ID:FG8sQouZ
>>278
歴史的説明ならともかく今時6バイトって
296デフォルトの名無しさん
垢版 |
2016/07/08(金) 23:17:05.68ID:5kBVrybZ
小学生向け漢字辞典にも文字コードが載っているのが唯一ある。三省堂のやつ。
しかしこれがJIS句点コードだけなのだ。こんな所にもJIS信者の陰謀が。
2016/07/09(土) 05:34:05.37ID:/Jgzrjn9
ふむ
2016/07/09(土) 16:20:52.60ID:ZRZgi1xJ
三省堂は安岡センセイの牙城だからな
http://dictionary.sanseido-publ.co.jp/wp/author/yasuoka/
2016/07/09(土) 16:24:06.20ID:chKLWi+d
やっぱり三省堂がナンバーワン!
2016/07/09(土) 18:40:43.19ID:J471aLuE
>>296
>句点コード

反省汁
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況