文字コード総合スレ Part10 [転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:29:00.08ID:xctG4AAd
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
2016/11/12(土) 15:38:19.16ID:q7jUFepj
>>616
刷は改定ごとに一から始まるので刷ごとの差は無い
そしてJISは様々な規格があるのでJISが何刷ということは言えない
2016/11/13(日) 13:47:22.48ID:ueOqX8wJ
78JIS以外は何刷でも内容一緒でしょ正誤票の反映はあるだろうけど
2016/11/14(月) 16:40:47.78ID:nhwER5sG
Unicode 10.0の絵文字候補、人魚は男女対応可能に | スラド IT
http://it.srad.jp/story/16/11/12/191218/

まーた増えるのか、、、
2016/11/14(月) 16:57:09.25ID:YqiB904W
なんでもかんでもZWJでいくなら最初から人間+魚でよかった。

そしてうっかり順番を入れ替えて魚+人間にすると……!!
2016/11/14(月) 17:40:54.01ID:rIoU2mi1
マーパーソンwww
2016/11/14(月) 17:48:16.83ID:rIoU2mi1
俺がもっとクールな新絵文字考えたぜつって、合字でオレオレ絵文字ZWJ実装するフォントが現れだして収集つかなくなりそう
2016/11/14(月) 18:00:03.62ID:zlxXdLUF
これはひどい
2016/11/14(月) 18:50:06.09ID:YqiB904W
>>623
うわありそうで怖い。
PUAと違って意味があるぶん、
大手が流行らせた合成絵文字はそのまま追認するしかない未来が見える。

例えばTwitterとか、Android OSとかがオレオレ絵文字実装したら
一般人が違いに気付かずに使って膨大な使用例ができるよね……
2016/11/15(火) 12:41:03.82ID:r6BgB6bM
ZWJ方式は、合成されなくても意味は通じるってことでしょ
2016/11/15(火) 13:27:53.08ID:U3Mmtdzs
WhatsAppがかんがえたさいきょうのZWJ絵文字
http://emojipedia.org/olympic-rings/

なお合成されなかったら意味は通じない模様
2016/11/15(火) 21:17:34.07ID:gEiNDmpT
ちゃんと色指定も加え入れろ〜
2016/11/15(火) 21:50:35.83ID:PldPJ2O3
合成するぐらいなら
文字列の途中にエンコードしたビットマップを挟み込めるようにしろ
2016/11/15(火) 21:55:34.62ID:cUgefh1P
─○○○
2016/11/16(水) 02:59:36.67ID:zr+5k25B
>>627
大きい丸自体が元をたどれば合成文字用なのが面白い
2016/11/16(水) 02:59:39.09ID:fzskfnoe
談合三本
2016/11/16(水) 03:01:10.13ID:fzskfnoe
>>629
たしかに
2016/11/16(水) 16:58:25.31ID:uL/NV7s7
むしろ合成したいなら U+20DD COMBINING ENCLOSING CIRCLE なんじゃ
2016/11/19(土) 01:04:22.83ID:/7Uc3cKm
ツ郤衙ワ
https://www.google.co.jp/#q=%EF%BE%82%E9%83%A4%E8%A1%99%EF%BE%9C
2016/11/19(土) 21:24:14.40ID:h19DOfQp
>>617
>>618
刷はある
同じ規格のはずなのに刷で例示字形に差がある時もあって、それを整理したいんだよね
2016/11/20(日) 03:55:56.72ID:pv3IyT3Y
古典の研究は資料の調査収集から始まる
2016/11/24(木) 20:15:24.01ID:V+CGDzRP
ーヲノイクゥ
イャサウクゥ
ケ篥ホクゥ
ケュナ邵ゥ
サースナクゥ
サウキチクゥ
ソキウ羣ゥ
タ鯱ユクゥ
タナイャクゥ
ツ郤衙ワ
ツ醋ャクゥ
トサシ雕ゥ
ナ郤ャクゥ
ニ猥ノクゥ
ニチナ邵ゥ
ニハフレクゥ
ノルサウクゥ
ハ。ー貂ゥ
ハ。イャクゥ
ハ。ナ邵ゥ
ハシクヒクゥ
ヒフウ、ニサ
マツイホサウクゥ
2016/11/25(金) 09:57:28.56ID:M66ENQJY
愛媛県
岡山県
高知県
広島県
三重県
山形県
新潟県
千葉県
静岡県
大阪府
大分県
鳥取県
島根県
奈良県
徳島県
栃木県
富山県
福井県
福岡県
福島県
兵庫県
北海道
和歌山県
2016/11/25(金) 12:21:36.58ID:n3LE76D7
マツイホサウ
https://www.google.co.jp/search?q=%E3%83%9E%E3%83%84%E3%82%A4%E3%83%9B%E3%82%B5%E3%82%A6
2016/12/19(月) 05:55:33.94ID:rp7MwxOA
さて
2016/12/26(月) 16:22:22.18ID:dYEGDg58
ISO/IEC 10646:2016 (5th Edition)は2017になりそうだな。
643デフォルトの名無しさん
垢版 |
2016/12/26(月) 20:13:30.11ID:TRnwbnfO
イロハコードがあるって初めて知った
http://nukalumix.hateblo.jp/entry/nenkin_iroha
https://www.taro.org/2016/12/%E3%81%84%E3%82%8D%E3%81%84%E3%82%8D%E3%82%A4%E3%83%AD%E3%83%8F%E3%81%AA%E7%9A%86%E6%A7%98%E3%81%B8.php
http://nlab.itmedia.co.jp/nl/articles/1612/12/news127.html
2016/12/28(水) 05:19:29.60ID:cqk+d7uG
コード?
2016/12/28(水) 07:28:33.43ID:XevzpVey
>>110
おいおい、ちゃんと規格読んでる?
原則、部首画数順だぞ。unihanデータベースも推奨ソートキーが部首画数順になってる。
2016/12/28(水) 07:35:34.89ID:XevzpVey
>>160
昔の区点表現でいう2区毎にまとめて突っ込んだせいだろう。
2016/12/28(水) 07:42:45.19ID:XevzpVey
>>244
いわゆるハングルの大移動ですね。
2016/12/28(水) 09:58:25.05ID:aMFxqRcr
突然遠投大会始めるのやめてもらえます
2016/12/28(水) 12:34:27.60ID:kFL7wfb2
>>644
50音カナで50進数にして管理してるんだと
2016/12/28(水) 13:11:56.04ID:hpQZCApo
カナって50個もあるの?
2016/12/28(水) 13:14:02.87ID:45reyBmE
もっとある
2017/01/01(日) 20:44:48.93ID:4U7a/Vzr
明けましておめでとうございます
2017年の文字コード業界はどうなるやら
2017/01/01(日) 21:18:20.53ID:9MvoRZrQ
VCでUTF-8のBOM無し突っ込めると判ったのが2016の最大の収穫
654デフォルトの名無しさん
垢版 |
2017/01/06(金) 14:36:30.66ID:XtKi9eaG
test
2017/01/19(木) 22:54:33.86ID:xPn9j90t
testだと?
2017/01/19(木) 23:22:23.28ID:kAhgSygC
ユニコードコンソーシアムのProposed New Charactersみてたら
HIRAGANA LETTER SMALL WI、HIRAGANA LETTER SMALL WE、HIRAGANA LETTER SMALL WO、
KATAKANA LETTER SMALL WI、KATAKANA LETTER SMALL WE、KATAKANA LETTER SMALL WO、
KATAKANA LETTER SMALL N
つまり小さい「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」があった。
小さい「こ」と「コ」は以前U+1B002とU+1B003に提案されてたが
そこは変体仮名が入ることになってU+1B127、U+1B128に変わってた。
変体仮名の数が多すぎてKana Supplementブロックに入り切らなかったから
その直後のU+1B100〜U+1B12FにKana Extended-Aブロックを作るんだな。
でU+1B100〜の予定だった女書は1B170〜にずれた。
2017/01/19(木) 23:41:32.39ID:L5ppZzRV
荒らしは去れ
ここはトイレの落書きやお前の日記ではない
2017/01/19(木) 23:58:14.21ID:xPn9j90t
佳那サプリメントでかいなあと思ってたのに足りなかったのか
2017/01/20(金) 01:09:17.45ID:1c/0Zcpc
>>656
女書ってなに?
660デフォルトの名無しさん
垢版 |
2017/01/20(金) 04:21:35.39ID:SuI25zgd
美乳
2017/01/20(金) 08:06:23.41ID:B05iL6IP
↑いまだにEUC使ってる奴
2017/01/20(金) 08:57:48.31ID:TRhLZIcU
芸柏l
663デフォルトの名無しさん
垢版 |
2017/01/20(金) 13:48:47.52ID:XOQ1SR2o
平成
2017/01/20(金) 16:02:46.66ID:HZJT4SPy
UTF-8と称しつつ実際はISO/IEC 8859-1(or Windows-1252)使ってるサイト早く絶滅しないかな〜。
2017/01/20(金) 23:22:01.31ID:2XlTkpSB
うむ
2017/01/22(日) 23:54:36.79ID:I5eFmZgm
シマンテックのインストーラー「Symantec? Veritas NetBackup?をインストールします」
俺「俺は今 何をインストールしているんだぜ…?」
2017/01/23(月) 13:38:14.82ID:vFvi2mPp
マカフィー()よりまし
2017/01/25(水) 14:44:24.88ID:/N/oPPcM
©と®が化けるのはあるある
2017/01/25(水) 15:54:19.97ID:O1e4fHbH
Windows 2000あたりのセットアップ画面(ブルースクリーン)は左上に

ソソソソソソソ

みたいなのが並んでた気がするんだけどあれは何が化けていたんだろう。
670237
垢版 |
2017/01/25(水) 22:09:22.42ID:gTVlV55T
>>669
CP437?
2017/01/25(水) 23:28:05.93ID:yhKKEJSl
CP237?
2017/02/03(金) 11:13:08.06ID:qUN7oehH
>>669
頭にオがあったんじゃないかな
2017/02/03(金) 15:53:54.77ID:AImPimr2
ソじゃなくてヘだな

Windows 2000 Setup
ヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘ
2017/02/06(月) 16:58:49.11ID:1iv5Awq0
>>669-673
なるほど、

https://en.wikipedia.org/wiki/Code_page_437
https://ja.wikipedia.org/wiki/JIS_X_0201

最初は CP437 の 0xCD “═” だったのが
何かの拍子にシフトJISとして解釈されて
JIS X 0201 の 0xCD “ヘ” に化けたということか。
2017/02/06(月) 21:27:31.96ID:oVOmv7r6
>>674
正体は罫線か。

こういう解明ってすっきりするし面白いね。
2017/02/19(日) 22:58:26.35ID:IU+vTkdD
ISO/IEC 10646 - Information technology -- Universal Coded Character Set (UCS)
http://www.iso.org/iso/catalogue_detail.htm?csnumber=69119

ISO/IEC 10646:2017 (5th Edition) がいつの間にか published になってた。
Publicly Available Standards へ追加マダァ-? (・∀・ )っ/凵⌒☆チンチン
2017/02/20(月) 22:24:53.34ID:coRAUu9w
>いつの間にか published になってた

文盲ってどうしようもないですねホント
2017/02/20(月) 23:48:25.19ID:SiY39E3I
regional flagsって日本の都道府県旗も追加されんの?
東京の旗が銀杏か肛門かで揉めそう
2017/02/21(火) 00:45:25.29ID:nlr0ZxeU
ってか日本の都道府県旗ってJISか何かで規格化されてるんだろうか
されてないなら根拠になる個別の条例を探して判断することになるのか
2017/02/21(火) 23:08:13.81ID:YiL5XD0V
東京のマンコマークと神奈川のチンチンびろーんは世界の恥
2017/02/22(水) 03:17:26.03ID:4ggKEg2C
旗の形ではなく県章部分だけでグリフ作ってもらえたらいろいろ独創的な応用が利きそうだ。
2017/02/22(水) 18:49:19.58ID:/iBgHjnm
>>679
絵と絵文字は別物やで
2017/02/22(水) 21:52:33.48ID:h5L2bR5S
>>682


言わんとすることがわからないけど、
基準があれば>>678みたいな場合に難しい判断しなくてすむでしょ?
2017/02/22(水) 22:31:09.15ID:j43AF9m9
もう憲法とか国境の位置もJIS規格で管理しちゃえよ
685デフォルトの名無しさん
垢版 |
2017/02/23(木) 13:21:45.70ID:eG9NqkD/
>>680
知らなかった
ありがとう
2ちゃんもたまには役に勃つな
2017/02/23(木) 13:22:51.89ID:eG9NqkD/
>>681
自分でやれ
2017/02/23(木) 18:33:49.17ID:g/wbAq9q
>>683
仕様書読もうな
688デフォルトの名無しさん
垢版 |
2017/02/23(木) 19:43:12.70ID:lh6GP4kZ
🏳️‍🌈
🏴‍☠️
2017/02/23(木) 23:02:08.28ID:Mc4LemLc
>>687
どうもかみ合ってない気がする。
仕様できっちり規定されてれば楽だけどそういうものじゃないよね、
なら代わりになる典拠があれば楽なんだけどな、って話してたつもりなんだけど。
2017/03/02(木) 13:04:44.68ID:Dk3HQyow
仕様を読んだ上でそんなこと言ってるなら、読解力が足りないとしか言えないわ
2017/03/02(木) 15:42:40.27ID:fgh+r4bY
せっかく亀レスするならもうちょっと具体的に言えたほうがいいと思う
2017/03/03(金) 19:38:34.87ID:r16C7uTR
もういくつ寝るとunicode10
ゾンビとか吸血鬼とかせっそうなさすぎ
こんな絵文字使われるのかよ
2017/03/03(金) 22:57:47.99ID:m0VSWGlS
もう幾つ寝るとISO 10646発売
あと一週間ぐらいで出るだろきっと
694デフォルトの名無しさん
垢版 |
2017/03/04(土) 12:37:47.12ID:GRvQ2lmz
>>692
他にやることあるのにね
無能なんだろ
2017/03/04(土) 17:17:33.70ID:eGgxEr5u
すべての文字を収めるが目的のはずが
新しいアイコンを作ろうになってるからな
2017/03/04(土) 23:52:53.04ID:+pEijc2g
絵文字なんか作ったってフォントごとに微妙に変わるし不毛だよ
何種類用意したって満足ってことはないし、無駄な仕事が増えるだけ
それならむしろ、エンコードしたビットマップかベクタグラフィックを
文字列の途中に文字として挿入できるようにしたほうがマシだろ
2017/03/05(日) 00:03:46.99ID:xrJm/RDc
100種類用意しました
1000種類用意しました
10000種類用意しました
・・・
どこまでいってもこんなものは・・・
絵文字っていわゆるラインスタンプみたいな使われ方を想定しているんだろ?
すべてのラインスタンプに文字コードを割り振るみたいなものだ
時代に合ってない
文字列の途中にビットマップかベクタグラフィックを挟み込める方が絶対良いって
そうすると当然絵文字職人みたいな人たちが出てきてにぎわうだろうから
それをコピペして使えばよいのだ
標準化委員会みたいな中央で絵の形とコードを取り決めて・・・ってスタイルは時代遅れだよ
ラインスタンプを見ろよ
698デフォルトの名無しさん
垢版 |
2017/03/05(日) 23:06:39.70ID:nindsAFW
たしかに
特定のコードとそれに続く何byteかでbitmap図形っていうのはありかもね
無駄多いけど
2017/03/06(月) 08:18:41.33ID:n/Fv95sm
最近の追加は絵文字じゃなくて絵になってるからな
文字コードに色を定義したり芯のない継接ぎ仕様でやりたい放題だよな
2017/03/14(火) 14:00:09.20ID:+au4v4OR
Unicode 10、変体仮名と縦書きレイアウト導入へ | マイナビニュース
http://news.mynavi.jp/news/2017/03/13/110/
2017/03/15(水) 08:13:46.98ID:eV3tx5Ei
縦書きテキストレイアウトってまたおかしなことになってんな
変体仮名は文字情報基盤の範囲ならいいんじゃね
2017/03/15(水) 08:24:44.07ID:oPhy6OQw
縦書きレイアウトって前からあるこれのアップデートのことじゃないの?
http://www.unicode.org/reports/tr50/tr50-18.html#Modifications
「導入」ってのはその記事の誤認っぽい
2017/03/15(水) 11:37:12.40ID:7YWEdixI
|のカーニングがおかしいとか
2017/03/15(水) 15:48:49.66ID:tq6fONxP
「導入」ってのは

> さらに、Unicode Vertical Text Layoutが標準の一部として取り込まれる点が注目される。

って本文に書いてあるんだから Unicode® Technical Report が Unicode® Standard Annex に昇格して
Unicode® Standard の一部になるってことでしょ。
2017/03/28(火) 20:45:37.67ID:2V3Jlzjb
おう吐・ゾンビ・授乳などUnicodeに新しい絵文字69種類が追加される
http://gigazine.net/news/20170328-69-new-emojis-announced/
2017/03/28(火) 22:50:13.41ID:ky5+niZ/
こんだけ増えてくると幾らアホなアメリカ人でも
UTF-16捨てたくなってくるだろ
2017/03/29(水) 08:08:48.71ID:81RbfoHk
こういう流行り廃りのあるものはMarkdown emojiのようなやり方で十分だしそっちの方が
便利だと思うがなぁ。そもそも欧米の連中、Unicode入力のためにIMEとか導入してるんだろうか?
2017/03/29(水) 12:59:49.14ID:v2ySqvAX
イングランド、スコットランド、ウェールズは入れたのに北アイルランドは入れなかったのか
しかし U+1F3F4 U+E0067 U+E0062 U+E0065 U+E006E U+E0067 U+E007F を一つの国旗として処理しろってそれは
2017/03/29(水) 14:50:05.48ID:IUBNo9UW
ほらもうこれ、いったい何に使うのっていう
ラインスタンプと比べるともはや・・・
まるで社会主義国家のようだし
今の時代の速度感と全然合ってないんですけど
2017/03/29(水) 17:07:28.23ID:WAel0act
>>706
UTF-8ならいいの?
2017/03/29(水) 18:47:22.40ID:pMdWiHKE
>>710
そういう意味じゃないでしょ
Unicodeに政治を持ち込むなっていう
2017/03/29(水) 21:14:02.55ID:81RbfoHk
「emojiが使えないUTF-16はオワコン」て意味かと思った。
2017/03/30(木) 01:24:25.07ID:4z103Fgo
iOS 10.3リリース、ファイルシステムがHFS+からAPFSに変更される
https://apple.srad.jp/story/17/03/29/0852227/

Apple、Unicode正規化(もどき)やめるってよ
2017/03/30(木) 07:57:02.00ID:HGkR55tR
U+41 U+0307 U+0308と
U+41 U+0308 U+0307のファイルが同時に作成できるのかな
2017/03/31(金) 16:24:48.85ID:jxXitrEX
http://www.taishukan.co.jp/kokugo/webkoku/series003_03.html

Windowsと同じ「がが」というフォルダを4つ作れるようになるのか
2017/03/31(金) 18:39:57.95ID:cAvSJqfg
> 少なくとも検索に関しては、「ガ」と「ガ」を同じにみなす必要があり、
> <U+FF76 U+FF9E>とU+30ACと<U+30AB U+3099>とを、 全て同じだとみなす必要があるということでしょう。

安岡は何当たり前のこと言ってんだ
JIS信者のクセに慣れないUnicodeについて語るとこういった低レベルな恥ずかしい記事になる
2017/04/01(土) 22:40:22.15ID:7/71KzK1
濁点は独立したコードポイントを持っていても結合文字みたいなものだし、
U+30AB U+309B の場合も「ガ」と同じにみなすべきだろうね、検索の場合
■ このスレッドは過去ログ倉庫に格納されています