文字コード総合スレ Part10 [転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:29:00.08ID:xctG4AAd
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
2016/02/24(水) 12:06:50.24ID:9rhAu1z5
>>228
君の出番だよ
君が第二の坂村健だ
2016/02/24(水) 17:55:57.73ID:zehZo7UI
完成してMicrosoftとAppleとGoogleとLinuxが採用したら知らせてくれ
2016/02/24(水) 20:07:26.11ID:Tso1kbi5
バイトオーダーがややこしいから1byteを1bitにするか
逆に1byteを64bitなどの大きい値にしたらどうよ?
コンピューターの黎明期は1byteが8bit以外の物もあったんだから
それも不可能ではないだろう。
2016/02/24(水) 20:26:02.29ID:JXxoXIUe
馬鹿って馬鹿だよね
2016/02/25(木) 00:25:47.28ID:loBITXzr
>>231
コンピュータの黎明期はbyteと云う単位ではなくて、Wordという単位だったと
思いますよ。1word何byteとかいっていて、コンピュータによって、Wordのbit数が
違っていたように思います。
大体1短Wordが20bit+1符号bit,1長wordが短wordの2倍で40bit+1符号bitというのが
普通だったとおもいますが、CDCの3600は、1短wordが32bit、1長wordが64bitではなかった
かと思います。
なにしろ、1960年代のことなので、記憶違いがあるかもしれません。
2016/02/25(木) 20:46:03.90ID:BzGy0Z9t
Unicodeに何が追加されようと大半の日本語フォントはAdobe-Japan1-6準拠だから
ほとんど恩恵がない
AdobeはPanCJKなんて漢字マニアしか喜ばないものを作ってないで
そろそろAJ17に取り掛かってくれ
2016/02/26(金) 12:15:47.32ID:YTHIspbV
Wordは今でも使うだろ普通に。
昔あったのはWord機、生き残りがByte機。
2016/02/26(金) 17:03:45.40ID:iAHBb9xH
>>152
安岡センセイ大敗北w
http://srad.jp/%7Eyasuoka/journal/600756
2016/02/26(金) 19:35:56.60ID:Ckpzri88
>>235
byteかwordかというのは
アドレッシング
アクセス最小単位
アラインメント
と3つの軸があって
最後のはbyte単位でないのが主流
2016/02/26(金) 19:54:30.62ID:d58rhTQn
キモはアルゴリズムでデータソースでしかないものに文句つけてもイチャモンでしかないだろう
知らんけど
2016/02/26(金) 21:57:25.44ID:jlaESRTF
アルゴリズムもバグってるみたいよ
2016/02/27(土) 01:15:53.58ID:1kXiMiWp
>>237
アーキテクチャ上は最後のも大丈夫なんじゃないの?
メモリにアクセスするハードウェア側のインタフェースの話じゃないよね。
2016/03/02(水) 11:22:17.92ID:5SSZmY+T
カタカナが多すぎて頭こんがらんがってきた
2016/03/02(水) 13:37:01.48ID:H2CN+/B0
トゥゲザーしようぜ
2016/03/02(水) 13:52:03.06ID:Pi6Moa3o
シェアしたいと思います
2016/03/04(金) 11:07:29.81ID:aAJqKKxk
1文字に32bit使うなら一般的な組み合わせの合成文字は
全て合成済み文字にしてコードを割り当てても足りるんじゃないだろうか
そうして合成文字は外字のようなオプション的な扱いにしたらいいと思うんだけどね
2016/03/04(金) 11:29:46.53ID:ex0V5X9T
何のいみがあるのかわからんなあ
2016/03/04(金) 12:41:46.94ID:aAJqKKxk
>>245
一般的な文字では32bit固定長にできる
2016/03/04(金) 13:27:03.56ID:qO6Wo8x7
「一般的な組み合わせ」が不変ならいいけど、現実にはいくらでも流動しちゃうのが問題じゃないかな。
これまでにも「今の用途ならこれだけあれば十分」って感覚で半端に作られた負の遺産がたくさんあるよね。

合成文字の仕組み自体を全廃・強制力付きで禁止するのならともかく、
オプションとして残すのなら新たに余計なものを作っただけで終わるのが見えてる。
2016/03/04(金) 18:21:11.26ID:IERVyLvo
ISO/IEC 6937対ISO/IEC 8859シリーズの戦いはもう勘弁
2016/03/15(火) 10:56:22.12ID:ZYJuXZMf
>>228
Unicodeで得られた知見を基に反省を活かして新しいのを作ってほしいね。
Unicodeもコンセプトは賛成だし規格に例外は付き物だけど、あまりにも継ぎ接ぎだらけでスパゲティコードみたいになってるのは清算したいね。
2016/04/02(土) 13:20:35.07ID:raCNCQWh
Unicodeはバージョンアップ時に精算するのが得意な方
切り捨てバンザイ主義
これ以上切り捨てたら誰も使ってはくれない
2016/04/06(水) 17:49:51.21ID:APP4s98L
UTS #52: Unicode Emoji Mechanisms
http://www.unicode.org/reports/tr52/tr52-1.html

> 3.5 Hair Attribute
>
> Syntax
>
> Tag-Base   Hair_Base
> Tag-Key    Tag-H
> Tag-Value   Exactly one of the following tag-valueChars:
>        tag-valueChar Description
>        Tag-k Black-haired
>        Tag-s Blonde (also sandy-haired)
>        Tag-b Brown (Brunette)
>        Tag-r Redhead (Ginger)
>        Tag-g Gray-haired
>        Tag-n Bald (no hair)

漫画・アニメキャラ用に赤髪、ピンク髪、緑髪、青髪、水髪、紫髪なんかも加えるべきじゃないですかね。
2016/04/06(水) 18:29:57.08ID:qW+LkY/S
_人人人人人人人_
> Bald (no hair) <
 ̄Y^Y^Y^Y^Y^Y^Y ̄
2016/04/08(金) 13:36:54.32ID:9VpqQ38l
Δ彡⌒ミΔ
ξ ・ェ・ ξ
ξ    ξ
ξ    ξ  また髪の話してる。
ξ    ξ
ξ    彡⌒ミ
ξ    (´・ω・`)〇
ξ    (|   |)ξ
ξ    (γ / ξ
 uu〜〜〜し uu
2016/04/09(土) 00:11:15.96ID:QiRGiLFx
毛の色と量は別のパラメータだよね
2016/04/09(土) 00:17:51.71ID:EyctzspR
赤毛のつるっぱげと
黒髪のつるっぱげと
ブロンドのつるっぱげの
区別を付ける意味はあるのかなあ。
2016/04/09(土) 01:58:16.39ID:ncpORidQ
眉毛の色も変わるんじゃね
2016/04/11(月) 18:05:35.93ID:qAYYUQ+e
>>251
色はスタイルシートとか他の技術で実現しろよな
そのうちRGB指定とか出てくるぞこれ
2016/04/19(火) 18:55:29.59ID:y8aUhLXK
コンソーシアムはアホばっか。
結局駆け引きとかゲーム楽しんでるだけじゃん。
2016/04/22(金) 16:03:00.18ID:20ytlDG9
ヘアスタイルや髪の色、眼鏡やら帽子やらはUnicodeの範囲の対象外だよとか言ってたのは何だったんだろう
2016/04/28(木) 04:05:36.64ID:m6Hq/pUS
完全にMark Davisに振り回されてる
2016/04/30(土) 16:00:17.78ID:Hd4l7uwV
禿は髪の色じゃなくてヘアスタイルだろ
てっぺん禿、後退禿、つるっ禿と種類もある
禿差別が凄い
2016/04/30(土) 16:37:37.68ID:n4ETaU8X
ちょんまげとか辮髪とかと同列のタグだよね
2016/05/01(日) 09:46:27.59ID:w66eLaS8
イラストのための仕様拡張なんか合理的な理由が全くないわ
文字から切り離して絵のフォーマットにすればいいじゃん
264デフォルトの名無しさん
垢版 |
2016/05/01(日) 11:04:17.70ID:tKi6j9CT
匿名通信(Tor、i2p等)ができるファイル共有ソフトBitComet(ビットコメット)みたいな、
BitTorrentがオープンソースで開発されています

言語は何でも大丈夫だそうなので、P2P書きたい!って人居ませんか?

Covenantの作者(Lyrise)がそういう人と話したいそうなので、よろしければツイートお願いします
https://twitter.com/Lyrise_al

ちなみにオイラはCovenantの完成が待ち遠しいプログラミングできないアスペルガーw


The Covenant Project
概要

Covenantは、純粋P2Pのファイル共有ソフトです

目的

インターネットにおける権力による抑圧を排除することが最終的な目標です。 そのためにCovenantでは、中央に依存しない、高効率で検索能力の高いファイル共有の機能をユーザーに提供します

特徴

Covenant = Bittorrent + Abstract Network + DHT + (Search = WoT + PoW)

接続は抽象化されているので、I2P, Tor, TCP, Proxy, その他を利用可能です
DHTにはKademlia + コネクションプールを使用します
UPnPによってポートを解放することができますが、Port0でも利用可能です(接続数は少なくなります)
検索リクエスト、アップロード、ダウンロードなどのすべての通信はDHT的に分散され、特定のサーバーに依存しません
265デフォルトの名無しさん
垢版 |
2016/05/18(水) 02:04:12.61ID:rFetSORz
 
      彡 ⌒ ミ
      (´・ω・`)
        U θ U  
    / ̄ ̄T ̄ ̄\
   |二二二二二二二|
   |        |
2016/06/07(火) 17:21:48.18ID:zLlkZGBv
http://www.unicode.org/emoji/charts/emoji-released.html#food-prepared
たこ焼きはまだか?
2016/06/08(水) 01:10:51.52ID:mh0+02By
NAUSEATED FACEってなんや。
外人は体調悪くなるとみんな顔緑色になるんか。
2016/06/08(水) 11:35:15.41ID:XFtKz/Go
この調子でどんどん絵文字を追加していくと
ついには新しい表意文字の体系が出来上がるよね
だけどコンピュータで扱う上では表音文字の方が合理的だったってことは
我々は痛いほどよくわかっているから、なんだかなーって気持ちになる
全ての物を一文字で表すのは大変なので
将来的に絵文字の熟語とか編み出されて
絵文字で会話するようになったらいやだなぁ
2016/06/09(木) 11:33:55.71ID:QkRZyBjx
>>268
>全ての物を一文字で表すのは大変なので

中国人「歓」

>将来的に絵文字の熟語とか編み出されて
>絵文字で会話するようになったらいやだなぁ

中国人「可不是」日本人「成程ね」
2016/06/20(月) 16:59:01.95ID:KYxI40Xs
ttp://d.hatena.ne.jp/NAOI/20080623/1214211959

絵文字の人物の肌の色やら髪の色を区別するならこういうのも区別してほしいわ〜。
バケツ頭かそうでないかは重要、俺的に
2016/06/21(火) 12:33:04.97ID:hiJvGdgU
unicode例示図形の画力の低さが光る
2016/06/22(水) 14:24:00.61ID:veMK4+iv
The Unicode Blog: Announcing The Unicode® Standard, Version 9.0
http://blog.unicode.org/2016/06/announcing-unicode-standard-version-90.html

Unicode 9.0.0
http://www.unicode.org/versions/Unicode9.0.0/
2016/06/22(水) 16:17:18.06ID:VKcfRnsb
なんか最近どんどん数字上がってね?Chromeみたい。
どんどんメジャーバージョン上げていく理由って何?
2016/06/24(金) 07:30:00.72ID:DNjTkSpS
>>273
絵文字量産してるからな
ろくすっぽ審議もせずどんどん入れてる
絵文字専用コードにすればいいのに
2016/06/24(金) 21:07:43.94ID:BJd4+ABn
本当、Unicode 1.X でやめとけば世の中平和だったのに。
276デフォルトの名無しさん
垢版 |
2016/06/26(日) 01:00:56.43ID:jrvEZcpa
まあ、サロゲートペアは無くても結合文字があるんですけどね……。
2016/07/04(月) 14:48:24.44ID:D0uzD5G8
ISO/IEC 10646:2014/Amd.2:2016がいつの間にか無料公開始まってたのな。
U+301C WAVE DASHの字形がISO/IEC 10646側でもやっと修正されたのか。
2016/07/06(水) 10:23:17.77ID:lhUlUm2p
安岡センセイ荒れてるな

http://srad.jp/~yasuoka/journal/604190/
>UTF-8は、ASCIIコードに当たる部分は1バイトで表し、
>それ以外の文字を2〜6バイトの可変長で表します。
>しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。

荒れるの当然か
279デフォルトの名無しさん
垢版 |
2016/07/06(水) 11:21:22.67ID:X105+0ra
これはひどい
2016/07/06(水) 19:46:06.13ID:j7TfNCeT
まじか。utf16採用してるwindows大勝利だな
(何度も言うがなんでutf8にしなかったんだよ。unixのツール使えなくてムカつくわ)
281デフォルトの名無しさん
垢版 |
2016/07/06(水) 20:19:51.63ID:gBn7auOK
>>280
表面はSJISだからだろ。
282デフォルトの名無しさん
垢版 |
2016/07/06(水) 22:02:39.94ID:wyF/Ksyo
漢字を正確に言葉で伝えるにはコードで表現するのが最も手軽で確実だと思うのだが、
あいにく当方の職場では誰もそうしようとしない。
和文通話表もアルファベットのフォネティックコードも使わない。
何しろ管理職にそういう発想が全くないのだからどうしようもない。

今のジジババはもう駄目だ。これからの若い世代に期待したい。
コード関係者、教育関係者の皆様、文字コードの概念を広く普及させてくださいませ。
2016/07/06(水) 22:43:23.48ID:7tNa29hq
>>278
合ってるで
2016/07/06(水) 23:02:26.86ID:73ByLRkJ
文字コードの話題で、他の規格に不寛容・攻撃的な人が多いのはなんでなんだろうねぇ?
mohtaの呪い?
2016/07/07(木) 02:40:42.16ID:p2jZ7JSr
たまにはEBSDICの事も思い出してあげてください
2016/07/07(木) 04:21:45.52ID:iN/cSWGV
ヱビス?
287デフォルトの名無しさん
垢版 |
2016/07/07(木) 07:50:53.33ID:zLr8XHI6
>285
エビスでなく、

EBCDIC
2016/07/07(木) 08:09:28.67ID:Xq4hCxWT
攻撃的はそうだけど、不寛容な人はあまり見かけないな。
それから、出所不明の誤ったことを自信満々に広めようとする人は多い。
289デフォルトの名無しさん
垢版 |
2016/07/07(木) 11:28:32.01ID:77RIzO9k
>>284
半角カナ気違いのトラウマだろうね
2016/07/07(木) 23:08:15.02ID:Fnd7xREL
昔、カナ漢字変換の機能が貧弱だった頃、第2水準漢字のほとんどは
コード直接入力じゃないと出せなかったらしい。
その時代を知っているジジババはむしろ若者よりもコードの知識があるかも。
291デフォルトの名無しさん
垢版 |
2016/07/08(金) 00:08:00.05ID:oeqNGrjL
>>290
その時代にワープロを使っている人間が少なすぎる。
2016/07/08(金) 09:37:59.75ID:RQ/bQ+xA
いまでも第2水準の読めないような漢字が出ないのは一緒では。特にスマホとかでは
2016/07/08(金) 12:53:57.37ID:+iCwFkYB
Windowsはいい加減にCP932やめればいいのに
2016/07/08(金) 13:56:23.18ID:SPYn5bNr
>>290
JIS区点コードな
さすがにいわゆるSJIS系の2バイト文字の話とか
UCS4とかUTF-8とかは通じないだろ
2016/07/08(金) 14:04:01.86ID:FG8sQouZ
>>278
歴史的説明ならともかく今時6バイトって
296デフォルトの名無しさん
垢版 |
2016/07/08(金) 23:17:05.68ID:5kBVrybZ
小学生向け漢字辞典にも文字コードが載っているのが唯一ある。三省堂のやつ。
しかしこれがJIS句点コードだけなのだ。こんな所にもJIS信者の陰謀が。
2016/07/09(土) 05:34:05.37ID:/Jgzrjn9
ふむ
2016/07/09(土) 16:20:52.60ID:ZRZgi1xJ
三省堂は安岡センセイの牙城だからな
http://dictionary.sanseido-publ.co.jp/wp/author/yasuoka/
2016/07/09(土) 16:24:06.20ID:chKLWi+d
やっぱり三省堂がナンバーワン!
2016/07/09(土) 18:40:43.19ID:J471aLuE
>>296
>句点コード

反省汁
2016/07/09(土) 20:53:51.60ID:9etHa3qY
>>300
何をする事がある
2016/07/09(土) 23:31:07.38ID:XNO4Gui5
>>300 スマンカッタ
句点と読点のそれぞれのJIS区点コードは……ってそういう話じゃないよね。

今時のオフィスでは漢字をコードで言い表さなくても、メール送って、
この字をコピペしろ、で話が済む。たいていの場合。
だがメールが使えないオフィスが存在するのだ。
ウィルス感染が怖い、個人情報の漏洩が怖い、と言ってごく一部以外のPCは
インターネットに繋がっていない。LANにすら繋がっていない。
穴だらけのXPを全くアップデートせずに使い続けている。

文字コードの知識云々以前にこっちの方が問題かも。
2016/07/10(日) 00:58:49.17ID:MJNrlAwo
十進法で1オリジンだから
十六進法で0オリジンが一般的なプログラミングの世界に持ってく時ちょっと戸惑う>区点コード
2016/07/10(日) 01:18:18.40ID:D0PozWsA
最初から JIS X 0208 で考えていれば違和感は無い。
2016/07/10(日) 02:25:10.70ID:MUn32aUj
𩿎 この字をコピペしろ
で話が済まないこともあるから2面94区5点と書いてある方が親切なこともある
2016/07/10(日) 19:18:33.41ID:Xe3UNHu3
パートのおばちゃんが「この字が出せない」と言っていたので、コードを調べて直接入力の方法を教えた。
そしたら、「そんな難しい方法じゃないと出ない字は出しません」と拒否。
管理職もそれでいいと思っている。
2016/07/10(日) 19:28:45.85ID:Xe3UNHu3
ヒロユキのヒロは康煕字典の煕、ユキは王羲之の之、これで話が通じれは
コードの知識がなくても何とかなる。けどそういう言い方は全く通じない職場がある。
で、バカみたいにA4の紙にでかい字で「煕之」と書いてFAXで送っている。
時間と紙と通信料金の無駄。
2016/07/10(日) 20:25:26.13ID:Vv5iaDQO
>ヒロユキのヒロは康煕字典の煕、ユキは王羲之の之、これで話が通じれは

それで通じる職場ってすごくピンポイントなんじゃないか
2016/07/10(日) 23:34:57.25ID:Xe3UNHu3
>>308
字の間違いが決して許されない職場では自然にそうなりそうな気もするんだが。
だいたい職場に大漢和辞典も康煕字典も無いとはもう駄目だ。

鼎という字を「何か県に似ている難しい字」などと言っている。u+9F0Eとは決して言わない。
高校時代に漢文が苦手だった俺だって「鼎の軽重を問う」という故事ぐらい知っている。
高卒以下か。
2016/07/11(月) 00:15:55.13ID:Oq6wujXh
>>290
漢ROMには第一水準しか乗ってなかった
2016/07/11(月) 00:42:20.21ID:TRcfwTqd
u+9F0Eとは決して言わない。いや言わんだろw
2016/07/11(月) 02:04:05.71ID:Y4y2Cs39
PC-9801初代とかE、F、Mの頃だな
313デフォルトの名無しさん
垢版 |
2016/07/11(月) 02:09:47.93ID:Y4y2Cs39
いや初代はJIS第1水準ROMも別売オプションだったか
2016/07/11(月) 04:11:38.97ID:1UixPK66
そういう環境は区点でも出ないから今は話題にしてない
315デフォルトの名無しさん
垢版 |
2016/07/11(月) 04:53:41.27ID:heaUdTdc
鼎立(ていりつ)
2016/07/11(月) 14:01:39.24ID:d9uyyk2v
>>283
たしかに合ってる
http://www.ndl.go.jp/jp/data/bib_newsletter/2016_1/article_06.html
2016/07/11(月) 14:48:05.83ID:czE7oCdB
>  しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。そこで、UCS-2の範囲は2バイト、UCS-4の範囲は4バイト(31ビット)でエンコードする
> サロゲート・ペアと呼ばれる方法が考え出されました。このエンコード法をUTF-16(16-bit UCS Transformation Format)と呼びます。

まるでUTF-8を拡張したらUTF-16が生まれたみたいな書きっぷりなんだが。。。
2016/07/11(月) 19:26:42.34ID:zdvynnCD
dmcがL"\uXXXX"で5桁以上に対応してなかったでござるよ
2016/07/11(月) 23:35:12.52ID:O+Gjjko5
あーあサイト閉鎖
http://www.asahi-net.or.jp/~ax2s-kmtn/
2016/07/12(火) 12:50:10.21ID:Z7lOs0LB
サイト閉鎖させるとか文字コード関係者は傲慢
2016/07/12(火) 14:22:38.54ID:jKILz9qy
そもそも不正確だろうが整合性なかろうが
その旨明記しておけば問題ないのに
断定しちゃうからダメなんだよなぁ
自分用のメモとしても訳に立たんだろうに
2016/07/12(火) 16:29:11.31ID:/KovKhYj
>>319
知らないなら解説しないでくださいうざいだけです
2016/07/12(火) 16:34:35.95ID:/KovKhYj
>>278
>【Unicodeのエンコーディング】※この章の内容を修正しました(2016年7月8日)

治ってたはω
2016/07/12(火) 22:47:59.76ID:iIVSUpVx
>>316のレターの著者=>>319のサイトの作者
なの?
Cyber Librarianなら見たことあるけどサイトを見た限りでは
そんな脇の甘いっつーか、ツッコミどころ満載の文章書く人には思えなかったが。
2016/07/13(水) 00:43:08.39ID:SuD222os
https://web.archive.org/web/20160331090356/http://www.asahi-net.or.jp/~ax2s-kmtn/character/uni.html
まあ同一人物でなければ盗用だろうなってかんじ
2016/07/13(水) 01:00:57.82ID:elchF/Ne
普通に考えたら同一人物だろ
上綱 秀治(かみつな しゅうじ) ⇒ s-kmtn
2016/07/13(水) 02:15:04.74ID:fhWupBlz
くみたんじゃないのか。
2016/07/13(水) 04:46:49.29ID:QAw5IbxT
>>325
同一人物だね
http://web.archive.org/web/20160501170424/http://www.asahi-net.or.jp/~ax2s-kmtn/profile.html
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況