X



文字コード総合スレ Part10 [転載禁止]©2ch.net
レス数が1000を超えています。これ以上書き込みはできません。
0001デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:29:00.08ID:xctG4AAd
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
0002デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:30:38.15ID:xctG4AAd
■参考サイト
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
IANA: Character Sets
http://www.iana.org/assignments/character-sets
Legacy Encoding Project
http://sourceforge.jp/projects/legacy-encoding/
CP50220
森山さんの説明
http://lists.sourceforge.jp/mailman/archives/legacy-encoding-talk-ja/2006-March/000002.html
JISX4061
日本語文字列照合順番
http://www.jisc.go.jp/
0003デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:31:02.98ID:xctG4AAd
■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
 内部的には Unicode -> CP932 -> CP5022x って変換な気もする
・人名をソートかけたらバストサイズ順の並びになる?
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる)
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた?
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に
 機種依存文字はサポートされるか?
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件
・なぜ携帯業界はunicode化しないのか?
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
0004デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:31:39.28ID:xctG4AAd
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「?心」簡化政策によると「?(U+6076)」に統一。口偏+?(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか)
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは?
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
 U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
 ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
 中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ
 UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで)
 サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い)
 ((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。
・Unicodeサニタイズが面倒になるのか
0005デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:31:59.03ID:xctG4AAd
・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ? → ウンコマークもUnicodeに追加されるんだな。
・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定
  → ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
 Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
 コントロールパネル-地域と言語のオプション-[言語]タブで
 「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か?海栗コードへの挿入は難しい。そこでTRONだ!!
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
 陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る?
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10%増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。
0007デフォルトの名無しさん
垢版 |
2015/10/14(水) 23:28:48.06ID:+mXu/6rb
もうひとつの過去スレ:
文字コード統一スレ 1文字目
http://pc8.2ch.net/test/read.cgi/tech/1109171258/

隔離スレ:
UnicodeとUTF-8の違いは?
http://pc12.2ch.net/test/read.cgi/tech/1177930957/
UnicodeとUTF-8の違いは? その2
http://hibari.2ch.net/test/read.cgi/tech/1274937437/
UnicodeとUTF-8の違いは? その2
http://toro.2ch.net/test/read.cgi/tech/1291075205/
UnicodeとUTF-8の違い4(インディアン隔離スレ)
http://toro.2ch.net/test/read.cgi/tech/1342963035/
0008デフォルトの名無しさん
垢版 |
2015/10/14(水) 23:29:44.73ID:+mXu/6rb
■ライブラリ
IBM Globalization - ICU
http://www-306.ibm.com/software/globalization/icu/
NKF32.DLL
http://www.vector.co.jp/soft/win95/util/se020949.html
バベル
http://tricklib.com/cxx/ex/babel/
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
http://tricklib.com/cxx/ex/babel/scoremap.csv
mlang
http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx
iconv
http://www.gnu.org/software/libiconv/
ICU
http://www.icu-project.org/
0009デフォルトの名無しさん
垢版 |
2015/10/14(水) 23:30:41.28ID:+mXu/6rb
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
 表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
 charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
 U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
 U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
 U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
 U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
 解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
 MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
 再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
 '0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
 あるいはhttp://masaka.dw.land.to/mr/jmr.phpとか。
0015デフォルトの名無しさん
垢版 |
2015/10/17(土) 20:16:21.68ID:E+N5KQ+e
文化庁の文化審議会漢字小委員会は16日、漢字の手書き文字について、「とめる」か「はらう」かなど、細部にこだわって正誤を判断せず、多様な字形を認めるべきだとする指針の中間報告案をまとめた。
0022デフォルトの名無しさん
垢版 |
2015/10/25(日) 18:50:42.59ID:zgU7ZYeY
3-5と9はもうテンプレから外していいんじゃないかなって話かと

20も言うように古いし更新されてないしどういう文脈の話かわからないのもあるし
レス番指定してるレスが混じってるけどPart何スレかもわからないしよく見ると色々あれ
0024デフォルトの名無しさん
垢版 |
2015/10/25(日) 19:33:16.94ID:8Ekj0BDy
>>9は議論の軌跡としては正しいのかも知れないけど内容が間違いだらけなので消した方が吉
0026デフォルトの名無しさん
垢版 |
2015/10/27(火) 07:41:18.41ID:ecThD4uO
ほんとにな
他に実績ない絵を字として登録してない?
そのうちLINEスタンプとか報道写真も登録するんじゃねえの。
一方で互換性ガー言って過去のミス登録を修正しないし。
WAVE DASH例示字形ですら25年かかるという無能揃いの組織。
過去版との互換性なんかとうの昔になくなってるのに。
0027デフォルトの名無しさん
垢版 |
2015/10/27(火) 23:40:44.85ID:b1wh6dDM
Unicodeコンソーシアムがアレなのは否定しないってか同意だが
WAVE DASHの問題はMSが独自の変換表を使ってるからなので
正直例示字形だけ直されてもあまり意味がってか字形だけならWindows Vista以降修正されてるし
いやそりゃ正しい波の形になったから気分はすっきりするけど。
0029デフォルトの名無しさん
垢版 |
2015/10/28(水) 07:10:47.43ID:en6I5N16
>WAVE DASHの問題はMSが独自の変換表を使ってるから

どうしてこういう見え透いた嘘を平気でつけるんだろうか
0036デフォルトの名無しさん
垢版 |
2015/11/03(火) 17:26:02.76ID:P1Dl09Tr
クローゼットの中にそういうハンガーみたいな金具たくさん入ってるけど
どういうときに使えるのか未だにわからない。
0037デフォルトの名無しさん
垢版 |
2015/11/04(水) 00:41:30.22ID:L8/5F95r
肩の厚みのあるハンガーをたくさんかけると、
スペースが無駄になるので互い違いに高さを変える。
0038デフォルトの名無しさん
垢版 |
2015/11/04(水) 01:28:04.95ID:uMca4o1w
向きが90度ずれない?
S字のを2個連結すれば戻るけど2個使い前提の道具なの?
0039デフォルトの名無しさん
垢版 |
2015/11/04(水) 16:58:03.51ID:QtO4ndAT
あれはスペースの有効活用が優先で
向きがずれる(逆になる)のは承知で使うんじゃないか?

>>31
しかし、チルダの全角形を本来の意味(?)で必要としているユーザーはどれだけいるんだろうかと思う
0040デフォルトの名無しさん
垢版 |
2015/11/05(木) 23:49:21.72ID:clXjiXU8
スレ違いかもしれんが
ネットで、ある日本語のテキストファイルを見たら化け化けだった
3分の1くらいのみ見れる
これをブラウザで簡体字中国語を選ぶと見れるという書き込みを見つけたので、
そうしたら見れた

これはどういうこと?
中国語扱う人が日本語をGB2312でエンコードしてたってこと?
0042デフォルトの名無しさん
垢版 |
2015/11/06(金) 06:30:43.46ID:6Ax8SlYK
>>39
使用頻度は気にしなくていいんだよ
全チルがあればそれでいい
あとはマッピング直してくれれば。
0044デフォルトの名無しさん
垢版 |
2015/11/08(日) 14:35:15.95ID:y8uRNach
お国自慢絵文字か。文字コードに押し込もうというわけでなければ、
ありふれたご当地ゆるキャラを何匹か並べたら大体同じ趣旨の日本版になるな。
0045デフォルトの名無しさん
垢版 |
2015/11/08(日) 17:13:00.26ID:BjW4Fik6
絵文字は文字以上に定義も難しいしキリがないからユーザー外字領域に閉じ込めておけばよかったのに。
0048デフォルトの名無しさん
垢版 |
2015/11/09(月) 07:42:22.13ID:L+fm0eEi
さすがに、外字領域での大規模な運用ぐらいはされてないと押し込みの提案も出ないんじゃなかろうか
0054デフォルトの名無しさん
垢版 |
2015/11/11(水) 22:12:58.76ID:mDE1AFdu


0055& ◆Pw.ZL0FkaP42
垢版 |
2015/11/11(水) 22:13:45.21ID:mDE1AFdu
s
0056デフォルトの名無しさん
垢版 |
2015/11/11(水) 22:23:37.04ID:rMaJFptQ
GB2312に平仮名、片仮名が収録されているというのも不可解なもんだ。
あいつら反日、嫌日のはずなのに。
0058デフォルトの名無しさん
垢版 |
2015/11/12(木) 23:09:21.24ID:fGMv4NR4
しかも簡体字フォントの仮名のデザインが脱力。
日本語版Windowsにも標準で付いている。たぶんMacにも。
0059デフォルトの名無しさん
垢版 |
2015/11/13(金) 14:48:06.39ID:tDbTQZeN
韓国のKS C 5601(KS X 1001)にも平仮名、片仮名入ってるし
単にJIS C 6226(JIS X 0208)の構造コピーして必要なところ以外はそのまま放置しただけなんじゃ……。
0063デフォルトの名無しさん
垢版 |
2015/11/14(土) 16:21:16.08ID:JBEqdozk
Androidでのダウンロードしたアプリのapkファイルを取り出してESファイルエクスプローラというアプリでapkファイルの拡張子をzipにして中身を見てるんだけど文字化けしてみえない
どの文字コードにしても見えない
0069デフォルトの名無しさん
垢版 |
2015/11/21(土) 03:23:51.12ID:YeqL1+4P
gbkの ひらがな はEUC-JPと互換性がある

ひらがなが含まれてるgbkなテキストファイルを自動判別すると
EUC-JPと認識される
0070デフォルトの名無しさん
垢版 |
2015/11/21(土) 06:36:56.04ID:GdR6w5S8
お前かお前の使ってるクソソフトが認識したことを
さも普遍的であるかのように「認識される」と書かれても
0071デフォルトの名無しさん
垢版 |
2015/11/21(土) 14:00:50.43ID:EEYvP2Nj
>>70
EmEditor と 日本語しか対応してないものはすべて同様なんだが

英語圏の方がまとも
0075デフォルトの名無しさん
垢版 |
2015/11/24(火) 12:09:48.94ID:BW2JWDBU
>>73
ANSI(SJIS) / JIS / EUC(EUC-JP) / UNICODE / UTF-8
だけしか対応してないんなら仕様だろうけど

EmEditorはgbk / big5も表示可能だが自動識別はダメ
0078デフォルトの名無しさん
垢版 |
2015/11/24(火) 21:06:35.37ID:T8a74y+F
文字コードの仕様の話と製品の仕様(実装)の話をごっちゃにしないでください
0080デフォルトの名無しさん
垢版 |
2015/11/25(水) 21:01:53.81ID:Bzkw7eST
>>74
utf-8でガマンガマン
0081デフォルトの名無しさん
垢版 |
2015/11/26(木) 10:04:26.60ID:esn3xG4v
プログラミングやマークアップで場面によって"utf8"だったり"utf-8"だったり"UTF8"だったり"UTF-8"だったりするのは何とかならんのですかね
0083デフォルトの名無しさん
垢版 |
2015/11/26(木) 20:23:24.34ID:k6+g+Go3
>>79
https://ja.wikipedia.org/wiki/ISO-2022-JP
独自拡張しすぎだろ

utf-8最強なのだが
Win9x時代に ANSI(s-jis) + utf-8(※s-jisに無い文字をutf-8にしてる) なんてファイル作る糞ソフトがあったな
0086デフォルトの名無しさん
垢版 |
2015/11/26(木) 23:24:19.12ID:dmQOYIsX
>>85
悪かったな


糞やろう。
0087デフォルトの名無しさん
垢版 |
2015/11/26(木) 23:37:04.25ID:o1tgPu22
そんなのはプログラミングやマークアップでの指定方法の仕様次第
おかしくなると思うのはバカ
0089デフォルトの名無しさん
垢版 |
2015/11/27(金) 07:32:51.99ID:B8BSEsh/
>>74
がまんしないで、要望をかいたほうがいいとおもう
どういうgrepがいいのかな?
コマンドですか? GUIですか?
コマンドなら、画面の環境に依存したりする
0091デフォルトの名無しさん
垢版 |
2015/11/30(月) 21:59:17.66ID:jgXroiuo
「して欲しい」じゃなく自分でやってみればいいのに。
0092デフォルトの名無しさん
垢版 |
2015/11/30(月) 22:34:12.03ID:CwTedwfo
UTF-8って日本語はほぼ3バイトだと思っていいんだっけ?

仕事仲間がそう言ってたけど不安。
0094デフォルトの名無しさん
垢版 |
2015/12/01(火) 02:33:52.32ID:juK8PVcx
iconv -f Shift_JIS -t UTF-8 file_name > new_file
サイズを比較
new_fileは、file_nameより1.5倍おおきい

# 日本人にとってUTF-8がいいわけない
0096デフォルトの名無しさん
垢版 |
2015/12/01(火) 03:51:29.82ID:Ik5f2d1Y
>>94-95
ファイルサイズの事を書くならもっと考慮すべきだな

UTF-8に変換するとどの程度ファイルサイズが膨らむのかは文書の内容により異なる
例えばこのスレの95までのdatファイルの場合は次のようになっていて
元のファイルに対してUTF-8は約 1.25 倍、UTF-16は約 1.5 倍だった

$ wc -c 1444822140-*
&nbsp;26775 1444822140-cp932.dat
&nbsp;40234 1444822140-utf16.dat
&nbsp;33434 1444822140-utf8.dat

ワープロなどの独自形式の内部でUCS2を使うことは十分に意味があると思う
しかしSHIFT_JISのプレーンテキストを変換する場合は、おおよそUTF-8が最大1.5倍
なのに対してUTF-16は最大2倍になる事を忘れてはいけない
0097デフォルトの名無しさん
垢版 |
2015/12/01(火) 10:01:27.63ID:2Tu3vetc
UTF-8で日本語が基本3バイト、はもう慣れたけど
ブログやらWikiで日本語使うと1文字につき9バイト必要なのはさすがにちょっと萎える

%E3%81%8B%E3%81%A3%E3%81%B1%E3%81%88%E3%81%B3%E3%81%9B%E3%82%93

とかたった数文字を表すのに長すぎだっての。
文字コードというかUTF-8をパーセントエンコーディング?する時の問題だけれど。
0098デフォルトの名無しさん
垢版 |
2015/12/01(火) 19:29:51.08ID:k1p/Pdr9
パーセントエンコーディングって単語自体が長くてめんどい。
もっと短く、パンコとかで通用するようにならないかな。
0101デフォルトの名無しさん
垢版 |
2015/12/01(火) 20:40:03.81ID:RA+mqEJ1
>>99
完全に隠蔽されてりゃいいけど
日常生活で目に入ってしまうんだから
糞としか言いようがない
0102デフォルトの名無しさん
垢版 |
2015/12/01(火) 22:44:13.88ID:/t42lLyY
URLのパーセントエンコーディングは脆弱性の宝庫になるくらいでただ使う側としてはどうでもいいけど
punycodeはまじでやめろ
0106デフォルトの名無しさん
垢版 |
2015/12/02(水) 10:05:36.38ID:amR8vvu9
>>104
提案しろよ。
そもそも読みがわからんとソート出来ないのが日本語なんで、
単漢字のソート順なんて大したこだわりないだろ。
植物、人の名前なんか、音読み、訓読み、当て読みと
二種類以上あるの珍しくないからな。
0107デフォルトの名無しさん
垢版 |
2015/12/02(水) 10:18:22.35ID:wYxvpGTD
JISコードに頼ったソートも今のコンピュータ環境じゃ、笑・・・・

脆弱性ってのは未熟もんがやるからとかでは
やりこんでる人でもバグは残ることも あ・・・
0108デフォルトの名無しさん
垢版 |
2015/12/02(水) 13:55:56.97ID:NJ9kFAss
日本語のソート順で思い出したが、
JIS(X 0208)が第1水準と第2水準で違う並べ方してるのも意味分からん。
代表音訓でも部首画数順でもいいから統一して欲しかった。
0109デフォルトの名無しさん
垢版 |
2015/12/04(金) 12:30:36.89ID:ujmgtERp
最近勉強し出したのか?
ソート順は確かに面倒だけど他の仕様との絡みを知ればこうするしかないと思う。
理想は理想で持っておけばいいんじゃね?
将来、漢字表刷新するかもしれんし、シフトJIS死滅するかもしれんし。
0110デフォルトの名無しさん
垢版 |
2015/12/04(金) 12:38:17.66ID:kxI+vXrK
シフトJIS死滅するのは構わないが、漢字の文化的側面を理解しようともしない欧米人が適当に並べた順でソートされるのは納得いかん。
0112デフォルトの名無しさん
垢版 |
2015/12/04(金) 14:24:16.07ID:616grxEX
何のために仮名文字があると思っているのか。
0114デフォルトの名無しさん
垢版 |
2015/12/04(金) 20:17:25.57ID:urrQLDlj
いつまでたっても文字集合順序バカはいなくならないね。

全てのいじたいに
0115デフォルトの名無しさん
垢版 |
2015/12/05(土) 09:09:04.31ID:0xZl9ZTr
半角カタカナで読みもかいておく。ひとにかいてもらうとかまぁたいへんだけど…
昇順にするとき、半角カタカナで比較して行を並べ替える
0116デフォルトの名無しさん
垢版 |
2015/12/05(土) 10:43:28.38ID:oE97tTMi
なんでメモ蝶を保存するときに
シフトジスでなくアンジーって表示されてんの?
0118デフォルトの名無しさん
垢版 |
2015/12/05(土) 19:58:46.22ID:kjmBg6FK
>>117
Unicodeもね。
なんで符号化方式の名前じゃなくて制定した組織の名称なのかは謎。
しかも日本語環境ならANSI(=ASCII)ですらないっていう嘘表記。
0120デフォルトの名無しさん
垢版 |
2015/12/06(日) 00:47:45.72ID:ods/Bdie
英語でもWindows-1252であってANSI関係ないけどなー
後にISO/IEC 8859-1になるものが昔ANSIのドラフトとして提案されてたってのが名前の由来らしいけど
Windowsのはそれ更に独自拡張したやつだし
0121デフォルトの名無しさん
垢版 |
2015/12/06(日) 09:58:13.03ID:pIhfFp+J
>>119
普通はアンシだけど、調べてみたらアンジでもいいみたい。

アンシ以外は聞いたことがなかった。
0122デフォルトの名無しさん
垢版 |
2015/12/06(日) 10:48:45.84ID:snTz5MuC
お前らも意味不明な文章を見たときに
「日本語でおK」って言うだろ?
それと同じ事だ
0123デフォルトの名無しさん
垢版 |
2015/12/06(日) 11:36:05.85ID:jSbqCg57
答えるの面倒な質問だよなw
ANSI==932じゃない
Winowsが繁体字版なら950で保存される
0126デフォルトの名無しさん
垢版 |
2015/12/09(水) 07:55:39.86ID:jI2VmBLr
というか昔はANSIが決めてISOが追認って規格がたくさんあった。
アメリカではANSIの規格名で呼び続けることもあった。
0129デフォルトの名無しさん
垢版 |
2015/12/09(水) 16:27:04.50ID:lqAlbDFw
カメラのフィルムに書いてある数字のこと昔はASA感度って言ってたのに気が付いたらISO感度ってみんな言うようになってたなみたいな話かna
0146デフォルトの名無しさん
垢版 |
2016/01/15(金) 16:58:58.27ID:KQq8mMFq
特定機種の話でアレだが
スマホのXperiaがZ4かZ5か知らんけどUnicodeの補助文字(BMP外の文字)表示出来るようになってたわ
俺のZ3では豆腐でがっかりだったのに、いつの間に。
0147デフォルトの名無しさん
垢版 |
2016/01/15(金) 18:41:54.97ID:P2RUw3PT
豆腐になるっていうのは普通に考えると
表示能力はあるけどフォントが無いだけだからフォント入れれば済む話では
0152デフォルトの名無しさん
垢版 |
2016/01/22(金) 20:00:04.23ID:QBUelO2B
アホの安岡が
『「常用漢字表と人名用漢字表を元にしてテキストを作成した[1]」のが事実なら』
と鍵かっこで強調してるというのに
日本語も読めないのかこの馬鹿(>151)は
0153デフォルトの名無しさん
垢版 |
2016/01/25(月) 22:08:23.80ID:hLxKxz0/
Unicodeには常用漢字表も人名用漢字表も含まれてるから、
結局のとこ、Unihanで無問題な希ガス
0155片山博文MZ ◆T6xkBnTXz7B0
垢版 |
2016/01/29(金) 15:58:28.60ID:BQRaRgTF
与えられたテキストがUCS16に合致するか判定するアルゴリズムってある?
0157片山博文MZ ◆T6xkBnTXz7B0
垢版 |
2016/01/30(土) 22:17:33.35ID:4i/PfDlC
nkfは、ライブラリとしては中途半端なんだよな。
スタティックライブラリとして利用可能にしてほしい。
0158デフォルトの名無しさん
垢版 |
2016/01/31(日) 00:56:53.78ID:1gNPM3q2
nkfって厳密さより何となく動くこと重視してるし
変換も自然とは言いがたい独自なのあるから注意
0160デフォルトの名無しさん
垢版 |
2016/02/03(水) 21:14:57.17ID:uf0uQxAG
シフトJISを作るときに2バイト目が0x00-7Fを避けるようにはできなかったのかな?
こうすればダメ文字問題も起こらないのに。
0163デフォルトの名無しさん
垢版 |
2016/02/03(水) 21:58:17.93ID:mmJ5x1I8
できなくはなかっただろうな
FFと1バイト目の半角カナを避けても
63×127=8001文字は使える
0164デフォルトの名無しさん
垢版 |
2016/02/03(水) 23:45:43.20ID:uf0uQxAG
Unicodeがあるのに今さらという感じはするけど
半角文字は1バイト全角文字は2バイトのままで
2バイト目が00-7Fにならない新文字コードがあってもいいと思う。
0166デフォルトの名無しさん
垢版 |
2016/02/04(木) 12:35:29.01ID:NB0syLHO
>>164
文字コードと符号化の違い分かってる?
そもそもシフトJISをサポートしてないソフトでシフトJISを使ったら問題出たってだけでしょ
0168デフォルトの名無しさん
垢版 |
2016/02/04(木) 14:58:00.09ID:pUsIARbq
シフトJISの反省の上に?作られたのが0x00-7FをASCIIにしか使わない日本語EUC(EUC-JP)なんだから
それでいいじゃんって気がするのだけど
そんなに半角カナが大事か

>>163
ISO/IEC 2022の94*94を47*188に変換するって分かりやすさ優先でこうなったんだっけ?
0170デフォルトの名無しさん
垢版 |
2016/02/04(木) 19:20:10.85ID:EFnVMbsO
>>169
>>168は半角カナを1バイトに納めることがそんなに優先かと言ってる

>>168
確証は無いけど、分かりやすさ・計算の単純さ優先の結果だと思ってた
0171デフォルトの名無しさん
垢版 |
2016/02/04(木) 23:06:09.90ID:WWqaejBP
>>166
もっと昔からある EUC を処理するには 8ビットクリーンなプログラムであれば事足りる。
ISO 8859 もそうだ。だからコンパイラも特別な処理などしなかった。
シフトJISもそうできなかったのかという話じゃないのか?
0172デフォルトの名無しさん
垢版 |
2016/02/04(木) 23:35:33.23ID:gW2sFWg4
むしろ解釈できない文字コードを通すことがおかしい
たまたま問題が見つからなかった、コンパイラがエラーを出さずに処理を終えたからOKとするなんてアホ
0173デフォルトの名無しさん
垢版 |
2016/02/05(金) 02:34:16.13ID:EN3ElRH3
>>171
8ビットクリーンならEUC-JPを問題なく使えるかというとそうでもなくて
上位バイトと下位バイトが別れちゃう問題は発生しうる

シフトjisの「表」のあとに\を入れるみたいなバッドノウハウが目立つのでシフトJISに
問題があるように見えるのかもしれないけど、本質的には対応してないものを
勝手に使って文句言ってるだけじゃないかな
0174デフォルトの名無しさん
垢版 |
2016/02/05(金) 02:44:24.24ID:k2yclqL8
上位バイトと下位バイトが別れる件はダメ文字とは別件だから
最初の人の要求に対しては問題にならない
0175デフォルトの名無しさん
垢版 |
2016/02/06(土) 14:03:11.00ID:sR9TSGCJ
>>173
対応してないから出来ないなんてことが起こるのはシフトJISだけだよ。
ダメ文字のせいで正規表現すら書けない。誰もやりたがらないような裏技はあるけどね。
0176デフォルトの名無しさん
垢版 |
2016/02/06(土) 15:14:13.70ID:zVjqWScH
自分が間違ったやり方をしていたけど問題になったのはAだけだ
→だからAが悪い

まさにこういう発想がクソ
しかも自分の知っている文字コードが全てだと勘違いしていてたちが悪い
0178デフォルトの名無しさん
垢版 |
2016/02/06(土) 18:59:39.30ID:Ps0oIAyd
UTF-8なら漢字やかなに00-7Fは使わないけどな
って、そういう話をしてるわけじゃないのか。
0180デフォルトの名無しさん
垢版 |
2016/02/06(土) 19:41:15.78ID:MiOvJZDJ
どうしてWindowsは出来の悪い方ばっかり選択するんだろうか
cp932といいUTF-16といい…
0181デフォルトの名無しさん
垢版 |
2016/02/06(土) 20:34:21.53ID:sR9TSGCJ
>>178
そういう話をしてるつもりだけど、そうでない人もいるようだ。
0182デフォルトの名無しさん
垢版 |
2016/02/07(日) 08:00:22.03ID:+iI8pPYd
エスケープシーケンスよりCP932の方がまだマシだし、
CP932よりUCS-2の方が多少はマシだったからでしょ
0183デフォルトの名無しさん
垢版 |
2016/02/07(日) 13:34:15.00ID:COqNuXpv
>>173
今更だけど、文字が分断される可能性についても公平を期すために触れておくよ。
単純にバイト数で分割する場合等を除けば、ほとんどはパターンマッチにおける誤マッチが原因だろう。
strchr や strstr 、あるいはもっと高度なライブラリを使った結果かもしれない。
探すパターンに [\100-\176] にマッチする文字が含まれているなら EUC では誤マッチは起こらない。
シフトJISではダメ文字のせいで誤マッチが起こりうる。
実際に問題になるのはほとんどがこのケース。
grep "\]"
などとやろうものなら悲惨なことになる。
探すパターンがマルチバイト文字だけなら EUC でもシフトJISと同程度には誤マッチが起こりうる。
しかし実際にはほとんど起こらない。
もちろん起こるときは起こるし対策も出来るが対策は速度の低下と引換だ。
30 年前の CPU クロックは 10MHz 程度だったので速度も重要だった。
ほとんど起こらない上に致命的でもないなら速度を犠牲にしてまで常に対策を講じる必要は無い。
ちなみに対策だが、EUC で grep する場合なら
egrep "^([\000-\177]|\216[\240-\337]|\217[\241-\376][\241-\376]|[\241-\376][\241-\376])*$pattern"
的なことをするプログラムを grep_euc とかそういう名前で作っておけばいい。
シフトJISの場合はこれに加えてシフトJISな部分を 8 進エスケープシーケンスに置き換える必要がある。
同じやり方で iso-2022-jp も処理できる。
シフトJISしか通さない grep など技術的には邪魔なだけだよ。
0186デフォルトの名無しさん
垢版 |
2016/02/07(日) 20:14:33.59ID:lDI02uIo
grepはいつutf16対応してくれるんじゃぁ
ふだんLinux使ってるんだがwinのソースコードはなぜかutf16なんでいつも困っとるんじゃぁ
nkfで変換するのめんどいんじゃあ
0188デフォルトの名無しさん
垢版 |
2016/02/08(月) 01:36:20.73ID:0XuKQtD5
>>180
UTF-16はそのころUCS-2しかなかったんだから仕方ないやろ

個人的にWindowsはAとWはそのままでもいいから
標準CライブラリとC++ライブラリはUTF-8を使ってくれるようにしてくれれば不満ないんだけどな。
0191デフォルトの名無しさん
垢版 |
2016/02/08(月) 22:30:39.07ID:ti0XuUyR
EUCは目糞鼻糞だし、当時の記録媒体でUTF-8とか頭おかしいレベルなのに
一体どうしたかったのか
0192デフォルトの名無しさん
垢版 |
2016/02/08(月) 22:35:16.47ID:HMUrPVh/
ただマイクロソフトを非難したいだけのキティGUYに何を。
こういうのは誰でもいいから攻撃対象を設けてガス抜きさせてやらないといかん。
0193デフォルトの名無しさん
垢版 |
2016/02/08(月) 23:02:30.93ID:sawB/DI+
SHIFT_JISよりEUC-JPの方がマシ、UTF-16よりUTF-8の方がマシってだけでしょ
マイクロソフトを非難したいだけに見えるとしたら相当なバイアス掛かってると思うよ
0194デフォルトの名無しさん
垢版 |
2016/02/09(火) 00:48:21.70ID:TCPuRlam
>>191
> 当時の記録媒体でUTF-8とか頭おかしいレベルなのに

kwsk

と言っても
> EUCは目糞鼻糞だしょ
なんて言ってる奴のいうことが理解できるかどうか…
0195デフォルトの名無しさん
垢版 |
2016/02/09(火) 05:16:13.78ID:K12Uxl59
UTF-8のRFCが出たのは2003年
その頃には80GBのHDDを一般人が変える時代
テキストの容量が問題になるとか無いわ

個人的にはいつまで経ってもsetlocaleでUTF-8を指定出来ない、代替の方法も用意されないWindowsは非難されて当然だと思うけどな。
0196デフォルトの名無しさん
垢版 |
2016/02/09(火) 07:15:08.73ID:4WJVGAJH
Windowsの今の文字コードの設計のベースは1991年か1992年に
Unicode1.0.0をもとに作られたはず

ちなみにその頃から「〜」はU+FF5Eに存在した
0197デフォルトの名無しさん
垢版 |
2016/02/09(火) 07:20:39.41ID:AjhTI0tJ
当時の記録媒体言ってるのはWindowsNTの時代な
その当時にUTF-8みたいな実装してもアホでしょ

それとUTF-8を率先して使用してる理由ってEUC環境が糞だったからでしょ
EUC環境の時代って外人様のソフトウェアで漢字の表示すらままならなかったよね
0198デフォルトの名無しさん
垢版 |
2016/02/09(火) 07:37:26.98ID:AjhTI0tJ
まあなんにせよUnicodeでデータ交換できるようになって
EUCゴミ環境が消えテクノは良い事だわ
EUCありがとうバイバイ
0200デフォルトの名無しさん
垢版 |
2016/02/09(火) 11:12:55.58ID:nhb546WZ
今でも新規作成の全文章を統計取ると、
cp932の方が多いんじゃないか。
結局全くプログラムかかないひとが
何の文字コード使ってるかが焦点で、
プログラム書く人間の文字コードなんざ焦点じゃないんだよね。
0203デフォルトの名無しさん
垢版 |
2016/02/09(火) 22:21:12.66ID:K12Uxl59
電話用のWindowsもCP932とUTF16ならそのまま安らかに死んでほしいんだけどどうなん?
0206デフォルトの名無しさん
垢版 |
2016/02/10(水) 20:10:05.19ID:NIAqtvX5
文字コードはUnicodeで統一されつつあるけど
改行コードが統一される動きはないよな
0207デフォルトの名無しさん
垢版 |
2016/02/10(水) 20:11:34.12ID:jTWkF3R0
>>187
英語だけなら問題ないが日本語でコメントかくととたんにやっかい
おそらくwinの内部処理がutf16なんでvcでコンパイラ作る→utf16しか受け付けない
になるんだと思う
0212デフォルトの名無しさん
垢版 |
2016/02/10(水) 22:46:23.85ID:MNP/EF3f
最近のMSVCはUTF-8のソースコード食ってくれるよ
新しくMSVCで読み込んだソースがUTF-8なのにBOMがないと自動判定に失敗して意味不明なコンパイルエラーになることも多いけど
0213デフォルトの名無しさん
垢版 |
2016/02/11(木) 00:53:59.61ID:V6zkYN3z
>>206
そうか?
ローカルデータで復帰付けてるのWindowsくらいじゃないか?
HTYP, SMTPなんかは復帰改行だけど
0214デフォルトの名無しさん
垢版 |
2016/02/11(木) 21:55:56.34ID:xlY9kt9Q
1バイトの英数字を平仮名と同じ幅で表示するフォントがあれば
全角英数字は使わないと思うんだが全角英数字も互換性のためだけに残されていると考えていいのか
0215デフォルトの名無しさん
垢版 |
2016/02/11(木) 23:11:32.22ID:e91ojKTo
>>214
JIS X 0208は、ASCIIやJIS X 0201と併用せずに使うことも想定されてる
だから文字集合に英数記号が含まれるのは当然
併用する場合ISO 2022的には重複符号化禁止だから本来使っちゃいけない
けど運用では守られてなかったし、併用前提の文字コードもあった
Unicodeは過去の利用例をほぼ取り込むのが前提だから
互換文字として全角文字を取り込んだ
0217デフォルトの名無しさん
垢版 |
2016/02/11(木) 23:22:30.10ID:e91ojKTo
なんとか空白はどうしても入れたい奴があったから全部入れることにしたんじゃないのかね
最初から20種類くらいあったでしょ
0219デフォルトの名無しさん
垢版 |
2016/02/12(金) 14:58:04.35ID:E8URvzDX
空白もそうだけど横棒も統合せずに放り込んだのが多すぎ
U+2015 HORIZONTAL BARってどこから生えて来たんだろ
0222デフォルトの名無しさん
垢版 |
2016/02/13(土) 21:46:29.51ID:UfGCg9+I
>>211
先に208でバカにしてきたのは208なんだが語るに落ちてねーか?
それとも「バカという単語は書いてないから自分はセーフ」ってことだろうか
バカの考えることはわからん
0223デフォルトの名無しさん
垢版 |
2016/02/13(土) 21:50:44.90ID:DWYdQVEl
バカの考えること=お前の考えること

自分が何考えてるかもわかんないなら救いようがないな。清原と一緒に逮捕されてろ
0225デフォルトの名無しさん
垢版 |
2016/02/15(月) 16:58:33.36ID:4pgZ8RvT
>>221
上がU+2014 EM DASHで
下がU+2015 HORIZONTAL BAR?
EM DASHは並べても切れて見えるなフォント次第だろうけど
0227デフォルトの名無しさん
垢版 |
2016/02/20(土) 22:49:46.68ID:2GCqu0fo
MS-excelのcodeという関数の出力がShift-JISだと勘違いしていた初心者の俺。
あやうく大恥をかく前に気づいてセーフ。
0228デフォルトの名無しさん
垢版 |
2016/02/24(水) 01:54:36.77ID:hnpOvXF7
UNICODEが年々キモくなるんですけど、新しいモジコードは開発されていますか(´・ω・`)?
0231デフォルトの名無しさん
垢版 |
2016/02/24(水) 20:07:26.11ID:Tso1kbi5
バイトオーダーがややこしいから1byteを1bitにするか
逆に1byteを64bitなどの大きい値にしたらどうよ?
コンピューターの黎明期は1byteが8bit以外の物もあったんだから
それも不可能ではないだろう。
0233デフォルトの名無しさん
垢版 |
2016/02/25(木) 00:25:47.28ID:loBITXzr
>>231
コンピュータの黎明期はbyteと云う単位ではなくて、Wordという単位だったと
思いますよ。1word何byteとかいっていて、コンピュータによって、Wordのbit数が
違っていたように思います。
大体1短Wordが20bit+1符号bit,1長wordが短wordの2倍で40bit+1符号bitというのが
普通だったとおもいますが、CDCの3600は、1短wordが32bit、1長wordが64bitではなかった
かと思います。
なにしろ、1960年代のことなので、記憶違いがあるかもしれません。
0234デフォルトの名無しさん
垢版 |
2016/02/25(木) 20:46:03.90ID:BzGy0Z9t
Unicodeに何が追加されようと大半の日本語フォントはAdobe-Japan1-6準拠だから
ほとんど恩恵がない
AdobeはPanCJKなんて漢字マニアしか喜ばないものを作ってないで
そろそろAJ17に取り掛かってくれ
0237デフォルトの名無しさん
垢版 |
2016/02/26(金) 19:35:56.60ID:Ckpzri88
>>235
byteかwordかというのは
アドレッシング
アクセス最小単位
アラインメント
と3つの軸があって
最後のはbyte単位でないのが主流
0238デフォルトの名無しさん
垢版 |
2016/02/26(金) 19:54:30.62ID:d58rhTQn
キモはアルゴリズムでデータソースでしかないものに文句つけてもイチャモンでしかないだろう
知らんけど
0240デフォルトの名無しさん
垢版 |
2016/02/27(土) 01:15:53.58ID:1kXiMiWp
>>237
アーキテクチャ上は最後のも大丈夫なんじゃないの?
メモリにアクセスするハードウェア側のインタフェースの話じゃないよね。
0244デフォルトの名無しさん
垢版 |
2016/03/04(金) 11:07:29.81ID:aAJqKKxk
1文字に32bit使うなら一般的な組み合わせの合成文字は
全て合成済み文字にしてコードを割り当てても足りるんじゃないだろうか
そうして合成文字は外字のようなオプション的な扱いにしたらいいと思うんだけどね
0247デフォルトの名無しさん
垢版 |
2016/03/04(金) 13:27:03.56ID:qO6Wo8x7
「一般的な組み合わせ」が不変ならいいけど、現実にはいくらでも流動しちゃうのが問題じゃないかな。
これまでにも「今の用途ならこれだけあれば十分」って感覚で半端に作られた負の遺産がたくさんあるよね。

合成文字の仕組み自体を全廃・強制力付きで禁止するのならともかく、
オプションとして残すのなら新たに余計なものを作っただけで終わるのが見えてる。
0249デフォルトの名無しさん
垢版 |
2016/03/15(火) 10:56:22.12ID:ZYJuXZMf
>>228
Unicodeで得られた知見を基に反省を活かして新しいのを作ってほしいね。
Unicodeもコンセプトは賛成だし規格に例外は付き物だけど、あまりにも継ぎ接ぎだらけでスパゲティコードみたいになってるのは清算したいね。
0250デフォルトの名無しさん
垢版 |
2016/04/02(土) 13:20:35.07ID:raCNCQWh
Unicodeはバージョンアップ時に精算するのが得意な方
切り捨てバンザイ主義
これ以上切り捨てたら誰も使ってはくれない
0251デフォルトの名無しさん
垢版 |
2016/04/06(水) 17:49:51.21ID:APP4s98L
UTS #52: Unicode Emoji Mechanisms
http://www.unicode.org/reports/tr52/tr52-1.html

> 3.5 Hair Attribute
>
> Syntax
>
> Tag-Base   Hair_Base
> Tag-Key    Tag-H
> Tag-Value   Exactly one of the following tag-valueChars:
>        tag-valueChar Description
>        Tag-k Black-haired
>        Tag-s Blonde (also sandy-haired)
>        Tag-b Brown (Brunette)
>        Tag-r Redhead (Ginger)
>        Tag-g Gray-haired
>        Tag-n Bald (no hair)

漫画・アニメキャラ用に赤髪、ピンク髪、緑髪、青髪、水髪、紫髪なんかも加えるべきじゃないですかね。
0253デフォルトの名無しさん
垢版 |
2016/04/08(金) 13:36:54.32ID:9VpqQ38l
Δ彡⌒ミΔ
ξ ・ェ・ ξ
ξ    ξ
ξ    ξ  また髪の話してる。
ξ    ξ
ξ    彡⌒ミ
ξ    (´・ω・`)〇
ξ    (|   |)ξ
ξ    (γ / ξ
 uu〜〜〜し uu
0255デフォルトの名無しさん
垢版 |
2016/04/09(土) 00:17:51.71ID:EyctzspR
赤毛のつるっぱげと
黒髪のつるっぱげと
ブロンドのつるっぱげの
区別を付ける意味はあるのかなあ。
0258デフォルトの名無しさん
垢版 |
2016/04/19(火) 18:55:29.59ID:y8aUhLXK
コンソーシアムはアホばっか。
結局駆け引きとかゲーム楽しんでるだけじゃん。
0259デフォルトの名無しさん
垢版 |
2016/04/22(金) 16:03:00.18ID:20ytlDG9
ヘアスタイルや髪の色、眼鏡やら帽子やらはUnicodeの範囲の対象外だよとか言ってたのは何だったんだろう
0261デフォルトの名無しさん
垢版 |
2016/04/30(土) 16:00:17.78ID:Hd4l7uwV
禿は髪の色じゃなくてヘアスタイルだろ
てっぺん禿、後退禿、つるっ禿と種類もある
禿差別が凄い
0263デフォルトの名無しさん
垢版 |
2016/05/01(日) 09:46:27.59ID:w66eLaS8
イラストのための仕様拡張なんか合理的な理由が全くないわ
文字から切り離して絵のフォーマットにすればいいじゃん
0264デフォルトの名無しさん
垢版 |
2016/05/01(日) 11:04:17.70ID:tKi6j9CT
匿名通信(Tor、i2p等)ができるファイル共有ソフトBitComet(ビットコメット)みたいな、
BitTorrentがオープンソースで開発されています

言語は何でも大丈夫だそうなので、P2P書きたい!って人居ませんか?

Covenantの作者(Lyrise)がそういう人と話したいそうなので、よろしければツイートお願いします
https://twitter.com/Lyrise_al

ちなみにオイラはCovenantの完成が待ち遠しいプログラミングできないアスペルガーw


The Covenant Project
概要

Covenantは、純粋P2Pのファイル共有ソフトです

目的

インターネットにおける権力による抑圧を排除することが最終的な目標です。 そのためにCovenantでは、中央に依存しない、高効率で検索能力の高いファイル共有の機能をユーザーに提供します

特徴

Covenant = Bittorrent + Abstract Network + DHT + (Search = WoT + PoW)

接続は抽象化されているので、I2P, Tor, TCP, Proxy, その他を利用可能です
DHTにはKademlia + コネクションプールを使用します
UPnPによってポートを解放することができますが、Port0でも利用可能です(接続数は少なくなります)
検索リクエスト、アップロード、ダウンロードなどのすべての通信はDHT的に分散され、特定のサーバーに依存しません
0265デフォルトの名無しさん
垢版 |
2016/05/18(水) 02:04:12.61ID:rFetSORz
 
      彡 ⌒ ミ
      (´・ω・`)
        U θ U  
    / ̄ ̄T ̄ ̄\
   |二二二二二二二|
   |        |
0268デフォルトの名無しさん
垢版 |
2016/06/08(水) 11:35:15.41ID:XFtKz/Go
この調子でどんどん絵文字を追加していくと
ついには新しい表意文字の体系が出来上がるよね
だけどコンピュータで扱う上では表音文字の方が合理的だったってことは
我々は痛いほどよくわかっているから、なんだかなーって気持ちになる
全ての物を一文字で表すのは大変なので
将来的に絵文字の熟語とか編み出されて
絵文字で会話するようになったらいやだなぁ
0269デフォルトの名無しさん
垢版 |
2016/06/09(木) 11:33:55.71ID:QkRZyBjx
>>268
>全ての物を一文字で表すのは大変なので

中国人「歓」

>将来的に絵文字の熟語とか編み出されて
>絵文字で会話するようになったらいやだなぁ

中国人「可不是」日本人「成程ね」
0270デフォルトの名無しさん
垢版 |
2016/06/20(月) 16:59:01.95ID:KYxI40Xs
ttp://d.hatena.ne.jp/NAOI/20080623/1214211959

絵文字の人物の肌の色やら髪の色を区別するならこういうのも区別してほしいわ〜。
バケツ頭かそうでないかは重要、俺的に
0273デフォルトの名無しさん
垢版 |
2016/06/22(水) 16:17:18.06ID:VKcfRnsb
なんか最近どんどん数字上がってね?Chromeみたい。
どんどんメジャーバージョン上げていく理由って何?
0274デフォルトの名無しさん
垢版 |
2016/06/24(金) 07:30:00.72ID:DNjTkSpS
>>273
絵文字量産してるからな
ろくすっぽ審議もせずどんどん入れてる
絵文字専用コードにすればいいのに
0276デフォルトの名無しさん
垢版 |
2016/06/26(日) 01:00:56.43ID:jrvEZcpa
まあ、サロゲートペアは無くても結合文字があるんですけどね……。
0277デフォルトの名無しさん
垢版 |
2016/07/04(月) 14:48:24.44ID:D0uzD5G8
ISO/IEC 10646:2014/Amd.2:2016がいつの間にか無料公開始まってたのな。
U+301C WAVE DASHの字形がISO/IEC 10646側でもやっと修正されたのか。
0278デフォルトの名無しさん
垢版 |
2016/07/06(水) 10:23:17.77ID:lhUlUm2p
安岡センセイ荒れてるな

http://srad.jp/~yasuoka/journal/604190/
>UTF-8は、ASCIIコードに当たる部分は1バイトで表し、
>それ以外の文字を2〜6バイトの可変長で表します。
>しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。

荒れるの当然か
0279デフォルトの名無しさん
垢版 |
2016/07/06(水) 11:21:22.67ID:X105+0ra
これはひどい
0280デフォルトの名無しさん
垢版 |
2016/07/06(水) 19:46:06.13ID:j7TfNCeT
まじか。utf16採用してるwindows大勝利だな
(何度も言うがなんでutf8にしなかったんだよ。unixのツール使えなくてムカつくわ)
0281デフォルトの名無しさん
垢版 |
2016/07/06(水) 20:19:51.63ID:gBn7auOK
>>280
表面はSJISだからだろ。
0282デフォルトの名無しさん
垢版 |
2016/07/06(水) 22:02:39.94ID:wyF/Ksyo
漢字を正確に言葉で伝えるにはコードで表現するのが最も手軽で確実だと思うのだが、
あいにく当方の職場では誰もそうしようとしない。
和文通話表もアルファベットのフォネティックコードも使わない。
何しろ管理職にそういう発想が全くないのだからどうしようもない。

今のジジババはもう駄目だ。これからの若い世代に期待したい。
コード関係者、教育関係者の皆様、文字コードの概念を広く普及させてくださいませ。
0284デフォルトの名無しさん
垢版 |
2016/07/06(水) 23:02:26.86ID:73ByLRkJ
文字コードの話題で、他の規格に不寛容・攻撃的な人が多いのはなんでなんだろうねぇ?
mohtaの呪い?
0287デフォルトの名無しさん
垢版 |
2016/07/07(木) 07:50:53.33ID:zLr8XHI6
>285
エビスでなく、

EBCDIC
0288デフォルトの名無しさん
垢版 |
2016/07/07(木) 08:09:28.67ID:Xq4hCxWT
攻撃的はそうだけど、不寛容な人はあまり見かけないな。
それから、出所不明の誤ったことを自信満々に広めようとする人は多い。
0289デフォルトの名無しさん
垢版 |
2016/07/07(木) 11:28:32.01ID:77RIzO9k
>>284
半角カナ気違いのトラウマだろうね
0290デフォルトの名無しさん
垢版 |
2016/07/07(木) 23:08:15.02ID:Fnd7xREL
昔、カナ漢字変換の機能が貧弱だった頃、第2水準漢字のほとんどは
コード直接入力じゃないと出せなかったらしい。
その時代を知っているジジババはむしろ若者よりもコードの知識があるかも。
0291デフォルトの名無しさん
垢版 |
2016/07/08(金) 00:08:00.05ID:oeqNGrjL
>>290
その時代にワープロを使っている人間が少なすぎる。
0292デフォルトの名無しさん
垢版 |
2016/07/08(金) 09:37:59.75ID:RQ/bQ+xA
いまでも第2水準の読めないような漢字が出ないのは一緒では。特にスマホとかでは
0294デフォルトの名無しさん
垢版 |
2016/07/08(金) 13:56:23.18ID:SPYn5bNr
>>290
JIS区点コードな
さすがにいわゆるSJIS系の2バイト文字の話とか
UCS4とかUTF-8とかは通じないだろ
0296デフォルトの名無しさん
垢版 |
2016/07/08(金) 23:17:05.68ID:5kBVrybZ
小学生向け漢字辞典にも文字コードが載っているのが唯一ある。三省堂のやつ。
しかしこれがJIS句点コードだけなのだ。こんな所にもJIS信者の陰謀が。
0302デフォルトの名無しさん
垢版 |
2016/07/09(土) 23:31:07.38ID:XNO4Gui5
>>300 スマンカッタ
句点と読点のそれぞれのJIS区点コードは……ってそういう話じゃないよね。

今時のオフィスでは漢字をコードで言い表さなくても、メール送って、
この字をコピペしろ、で話が済む。たいていの場合。
だがメールが使えないオフィスが存在するのだ。
ウィルス感染が怖い、個人情報の漏洩が怖い、と言ってごく一部以外のPCは
インターネットに繋がっていない。LANにすら繋がっていない。
穴だらけのXPを全くアップデートせずに使い続けている。

文字コードの知識云々以前にこっちの方が問題かも。
0303デフォルトの名無しさん
垢版 |
2016/07/10(日) 00:58:49.17ID:MJNrlAwo
十進法で1オリジンだから
十六進法で0オリジンが一般的なプログラミングの世界に持ってく時ちょっと戸惑う>区点コード
0305デフォルトの名無しさん
垢版 |
2016/07/10(日) 02:25:10.70ID:MUn32aUj
𩿎 この字をコピペしろ
で話が済まないこともあるから2面94区5点と書いてある方が親切なこともある
0306名無しさん@そうだ選挙に行こう! Go to vote!
垢版 |
2016/07/10(日) 19:18:33.41ID:Xe3UNHu3
パートのおばちゃんが「この字が出せない」と言っていたので、コードを調べて直接入力の方法を教えた。
そしたら、「そんな難しい方法じゃないと出ない字は出しません」と拒否。
管理職もそれでいいと思っている。
0307名無しさん@そうだ選挙に行こう! Go to vote!
垢版 |
2016/07/10(日) 19:28:45.85ID:Xe3UNHu3
ヒロユキのヒロは康煕字典の煕、ユキは王羲之の之、これで話が通じれは
コードの知識がなくても何とかなる。けどそういう言い方は全く通じない職場がある。
で、バカみたいにA4の紙にでかい字で「煕之」と書いてFAXで送っている。
時間と紙と通信料金の無駄。
0308デフォルトの名無しさん
垢版 |
2016/07/10(日) 20:25:26.13ID:Vv5iaDQO
>ヒロユキのヒロは康煕字典の煕、ユキは王羲之の之、これで話が通じれは

それで通じる職場ってすごくピンポイントなんじゃないか
0309デフォルトの名無しさん
垢版 |
2016/07/10(日) 23:34:57.25ID:Xe3UNHu3
>>308
字の間違いが決して許されない職場では自然にそうなりそうな気もするんだが。
だいたい職場に大漢和辞典も康煕字典も無いとはもう駄目だ。

鼎という字を「何か県に似ている難しい字」などと言っている。u+9F0Eとは決して言わない。
高校時代に漢文が苦手だった俺だって「鼎の軽重を問う」という故事ぐらい知っている。
高卒以下か。
0313デフォルトの名無しさん
垢版 |
2016/07/11(月) 02:09:47.93ID:Y4y2Cs39
いや初代はJIS第1水準ROMも別売オプションだったか
0315デフォルトの名無しさん
垢版 |
2016/07/11(月) 04:53:41.27ID:heaUdTdc
鼎立(ていりつ)
0317デフォルトの名無しさん
垢版 |
2016/07/11(月) 14:48:05.83ID:czE7oCdB
>  しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。そこで、UCS-2の範囲は2バイト、UCS-4の範囲は4バイト(31ビット)でエンコードする
> サロゲート・ペアと呼ばれる方法が考え出されました。このエンコード法をUTF-16(16-bit UCS Transformation Format)と呼びます。

まるでUTF-8を拡張したらUTF-16が生まれたみたいな書きっぷりなんだが。。。
0321デフォルトの名無しさん
垢版 |
2016/07/12(火) 14:22:38.54ID:jKILz9qy
そもそも不正確だろうが整合性なかろうが
その旨明記しておけば問題ないのに
断定しちゃうからダメなんだよなぁ
自分用のメモとしても訳に立たんだろうに
0323デフォルトの名無しさん
垢版 |
2016/07/12(火) 16:34:35.95ID:/KovKhYj
>>278
>【Unicodeのエンコーディング】※この章の内容を修正しました(2016年7月8日)

治ってたはω
0324デフォルトの名無しさん
垢版 |
2016/07/12(火) 22:47:59.76ID:iIVSUpVx
>>316のレターの著者=>>319のサイトの作者
なの?
Cyber Librarianなら見たことあるけどサイトを見た限りでは
そんな脇の甘いっつーか、ツッコミどころ満載の文章書く人には思えなかったが。
0329デフォルトの名無しさん
垢版 |
2016/07/13(水) 09:20:59.26ID:6cXc/1BZ
>>325
>UTF-8は、ASCIIコードに当たる部分はASCIIコードと同じコードで
>1バイトで表し、それ以外の文字を2〜6バイトの可変長で表します。
>しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。
>そこで、UCS-2の範囲は2バイト、UCS-4の範囲は4バイトでエンコードする
>サロゲート・ペア(Surrogate Pair)と呼ばれる方法が考え出されました。

自分で書いた嘘を自分で信じ込んでしまったのか
0334デフォルトの名無しさん
垢版 |
2016/07/13(水) 23:46:02.63ID:g/v1wH4T
>>305
そうやって親切に説明しても理解しようとしない奴が多い。
自分の努力不足を棚に上げて。
新聞紙屋にも市役所職員にもそういう説明は通じなかった。
0335デフォルトの名無しさん
垢版 |
2016/07/13(水) 23:58:49.98ID:r/tNmXJO
天皇陛下が生前退位を望んでおられるらしいが
年号が変わったらまた組み文字のがUnicodeに登録されるんだろうか。
そしてNEC特殊文字の空き区点位置にも追加されたりするんだろうか?
0338デフォルトの名無しさん
垢版 |
2016/07/14(木) 17:50:45.39ID:/KqsG61x
>>335
Unicode側が先に動くんじゃなくて国内規格が変わったら重い腰を上げる感じじゃね?

JIS X 0213に追加されたら多分入れざるを得ないだろう。
0339デフォルトの名無しさん
垢版 |
2016/07/14(木) 18:58:13.31ID:FxiZTBVJ
Unicodeの組み文字はやたら多いんだよなあ
これ以上増やさないでいいと思うが
ARIBあたりは収録しそうだ
0341デフォルトの名無しさん
垢版 |
2016/07/15(金) 17:59:32.47ID:UYk8auDK
元号変わったら組み文字がJISやUnicodeに追加されるだろうか。
あれらはあくまで使用非推奨の互換用だけど平成迄あるのに
〇〇(新元号)は無いのはおかしいって文句言う人いそうだし。
そしてUnicodeに追加されるならBMP外になるのかな。
0343デフォルトの名無しさん
垢版 |
2016/07/15(金) 19:47:06.41ID:hA/ek+uV
天皇陛下はさまざまな影響を考えて、数年後とおっしゃっている。
0344デフォルトの名無しさん
垢版 |
2016/07/15(金) 21:22:13.08ID:6VjYEGCM
天皇陛下はさまざまな影響を考えて、(Unicodeへの追加は)数年後とおっしゃっている。

かと思った
0345デフォルトの名無しさん
垢版 |
2016/07/15(金) 23:56:20.80ID:sNlxveIP
明治〜平成がBMPなのに新元号がSMPなのは納得いかないって人出てくるだろう。
でもU+33xxのBMPのCJK互換文字領域は空いてない。
U+32xxの囲み文字等の領域だったら
U+32FFが空いてるけどそこは○ンの為にとっておくべきって理由で却下かも。
(ARIB外字の□デは当初そこで提案されてたがSMPに移された。)
U+321Fも空いてるけどそこはハングルの為に予約でダメかな。
2文字合わせて1字の漢字扱いでCJK統合漢字無印の末端部分に追加とかするかも。
0346デフォルトの名無しさん
垢版 |
2016/07/16(土) 00:01:26.24ID:5z5Xjrfb
>>344
陛下はIT業界のことまで考えてくださっているんだぞ。
0347デフォルトの名無しさん
垢版 |
2016/07/16(土) 00:14:15.53ID:32MvK4yp
>>345
>2文字合わせて1字の漢字扱い

面白いけど縦書きしたときに組み変わる漢字ってありなのかなあ…
0350デフォルトの名無しさん
垢版 |
2016/07/16(土) 02:08:19.62ID:nOt6AvP3
>>348
それはない
0352デフォルトの名無しさん
垢版 |
2016/07/16(土) 06:16:44.45ID:G3ZPSnBi
明治生まれって105歳くらいでそろそろ長寿ギネスを争う位置やで
ゴーストは知らんけど例の事件以降対策は取ってるはず
0353デフォルトの名無しさん
垢版 |
2016/07/16(土) 14:40:44.25ID:9Y22Kipm
>>335
生前退位は間違い
正しくは譲位
0354デフォルトの名無しさん
垢版 |
2016/07/16(土) 14:43:32.66ID:9Y22Kipm
>>349
それな+1
0355デフォルトの名無しさん
垢版 |
2016/07/16(土) 17:16:57.05ID:q/+YlM5I
>>353
譲位もいまの日本の法律では規定されていない言葉。
0358デフォルトの名無しさん
垢版 |
2016/07/16(土) 23:20:32.22ID:DxYW1o4r
Macの機種依存文字でUnicodeにない組み文字とかは
PUAのうち何個かのコードポイントを後続の複数文字を組み文字とみなすとかの制御文字にして
変換時はそれらを使ったシーケンスにしてるけど
それらを正式なUnicodeポイントに追加すればいいんじゃないかな。
BMPの末端部の特殊用途文字の領域空いてるよな。多くなったら14面使えばいいし。
0360デフォルトの名無しさん
垢版 |
2016/07/17(日) 11:40:00.96ID:4VxhtWVI
[組文字2字] ○ × みたいな組み合わせで組文字を出せれば、どんな元号だろうと対処できるんじゃね?
0367デフォルトの名無しさん
垢版 |
2016/07/18(月) 20:49:35.27ID:nMdxdQ2m
結局タグ文字は止めてZWJでくっつけることにしたのか
まあ俺は要らんけど、Googleはやるんだろうな。
0370デフォルトの名無しさん
垢版 |
2016/07/20(水) 16:25:57.26ID:uqKREUqt
元号の組み文字も平成の次からは
(1文字目) ZWJ (2文字目)
でいいだろう。元号に限らず他の組み文字もこのようなやり方で。
0372デフォルトの名無しさん
垢版 |
2016/07/22(金) 00:45:15.53ID:9PI3Dwz3
HENTAIYAGANA!

同じ音価のやつどう名前つけるのかと思ってたら単純に番号振ったんか。
しっかしほぼ同じじゃないかってやつがいくつもあるな…
0378237
垢版 |
2016/07/24(日) 13:36:56.67ID:6r1nbUWl
Wikipediaにも別称として載ってるitaiganaならまだしも、一般的でない訳語を増やすのはやめてくれ
0379デフォルトの名無しさん
垢版 |
2016/07/24(日) 13:38:46.61ID:wdZTIji9
しらんがなも追加で
0380デフォルトの名無しさん
垢版 |
2016/07/24(日) 14:21:52.39ID:KetOMPlM
痛い(>_<)がな
0381デフォルトの名無しさん
垢版 |
2016/07/24(日) 18:14:24.67ID:jDvbVIvk
しらんがな-1
しらんがな-2
しらんがな-3

どうでもいいレベルに応じて数字が上がっていくしらんがな
0383デフォルトの名無しさん
垢版 |
2016/07/27(水) 23:58:18.41ID:LlxcxPCX
漢字なんかもUnicodeではCJK Ideograph(日中韓の表意文字)という独特な表現なんだよな。
通常はChinese character(中国の文字)とか日本で使われるもの限定ならKanjiとかだけど、
中国語だけでなく日本語でも必要不可欠なことから中立的な観点でそうしたのかな。
0384デフォルトの名無しさん
垢版 |
2016/07/28(木) 00:49:49.72ID:5nmTx3N/
>>383
それUTF-16だろ。
0388デフォルトの名無しさん
垢版 |
2016/07/28(木) 07:33:28.43ID:Gt2rQ6iY
>>383
「漢字って言語圏ごとに登録したらとんでもない量になる。出自は同じだし統合すっか」
っていう混ぜ書き全否定な仕様にしたからな
統合したんだからKanjiっていう日本語読みじゃなくて「極東の表意文字」みたいな名前つけられるのは当然の成り行き
0391デフォルトの名無しさん
垢版 |
2016/07/28(木) 10:28:08.04ID:49cPLP5e
そうはいっても迷惑かけている部分もあるからな
英語だったら高々数十個のアルファベットと幾つかの記号だけで済むところを
何万種類も必要になる方が悪いだろ、どう考えても
0393デフォルトの名無しさん
垢版 |
2016/07/28(木) 13:16:07.78ID:V4Cbn7HZ
英国はアヘン戦争で清を滅亡させるべきだったし、
米国は太平洋戦争で日本を滅亡させるべきだったね。
0395デフォルトの名無しさん
垢版 |
2016/07/28(木) 14:16:22.55ID:ZhRv9dtO
勝手に新しい絵文字作り出してる現状なんだし気にするな
と思ったけど文字が少ない文化圏の連中はその反動なのかもしれないな
0396デフォルトの名無しさん
垢版 |
2016/07/28(木) 19:12:45.37ID:O8Vfrh0P
将来再び毛沢東みたいなアホが出てきて新文字増やす可能性もないとはいえない
0397デフォルトの名無しさん
垢版 |
2016/07/28(木) 23:10:34.74ID:+NfDBjt/
>>388
でも統合しきれなくてコードポイントを無駄遣いしているのが多数。
例えば一例として説と說が別字扱いというのは納得できない。
康煕字典に47000字、大漢和辞典に50000字というのは調べれば最初から分かった筈。
相当節約すべきなのにそれを怠ったから16bitのバベルの塔は頓挫した。

>>394
そしてそれを廃止できない。負の文化遺産として今後も残るだろう。
0401デフォルトの名無しさん
垢版 |
2016/07/29(金) 08:13:31.17ID:GYJuIIBJ
>>397
>説と說が別字扱いというのは納得できない
自国の文化以外を受け入れることが出来ない奴は吠えてろ。
アメリカ人が英語圏以外のことを軽視してるのと同様に
お前のその思想が世界に迷惑
0403デフォルトの名無しさん
垢版 |
2016/07/29(金) 23:13:14.93ID:qPs+aDEn
>>401
それは逆。
漢字文化を理解しない西洋人が規格化したからそうなってしまった。
康煕字典の「正字」がどのような経緯で成立したかほんの少し勉強すれば、それらが同字だと理解できる。
ついでに日本のバカな国語審議会がどんなふうにバカな国語国字改革を行ったかも知っておくべき。
0404デフォルトの名無しさん
垢版 |
2016/07/30(土) 00:36:36.04ID:GBcwIM/b
説と說の違いなどフォントの違いに過ぎない。
これを別字だと主張するのはGaramondのAとBodoniのAは別字だと主張する様なものだ。
0406デフォルトの名無しさん
垢版 |
2016/07/30(土) 02:27:38.51ID:VkFDbK5O
フォントの違い?じゃあ別字で😁
A A 𐌀 𝐀 𝐴 𝑨 𝒜 𝓐 𝔄 𝔸 𝕬 𝖠 𝗔 𝘈 𝘼 𝙰
0408デフォルトの名無しさん
垢版 |
2016/07/30(土) 05:58:51.63ID:7lrNNE5f
>>403を通訳すると
「現規格分離などどうでもいい」
「日本の漢字文化がすべて。他の国のことは知らん」
最悪だな
0410デフォルトの名無しさん
垢版 |
2016/07/30(土) 13:16:26.02ID:NnN7Vre0
>>404
華と华は同じ字ですか?
0411デフォルトの名無しさん
垢版 |
2016/07/30(土) 13:17:35.16ID:NnN7Vre0
>>406
Уとyは同じ字ですか?
0412デフォルトの名無しさん
垢版 |
2016/07/30(土) 21:48:28.00ID:dIHoRAg/






カタカナのヘ
ひらがなのへ
0413デフォルトの名無しさん
垢版 |
2016/07/30(土) 21:55:31.23ID:cBq8SpsU
:::::::::::/           ヽ::::::::::::
:::::::::::|  ば  じ  き  i::::::::::::
:::::::::::.ゝ か   つ   み  ノ:::::::::::
:::::::::::/  だ  に  は イ:::::::::::::
:::::  |  な。       ゙i  ::::::
   \_         ,,-'
――--、..,ヽ__  _,,-''
:::::::,-‐、,‐、ヽ. )ノ      _,,...-
:::::_|/ 。|。ヽ|-i、      ∠_:::::::::
/. ` ' ● ' ニ 、     ,-、ヽ|:::::::::
ニ __l___ノ     |・ | |, -、::
/ ̄ _  | i     ゚r ー'  6 |::
|( ̄`'  )/ / ,..    i     '-
`ー---―' / '(__ )   ヽ 、     >>1
====( i)==::::/      ,/ニニニ
:/     ヽ:::i       /;;;;;;;;;;;;;;;;
0416デフォルトの名無しさん
垢版 |
2016/08/01(月) 22:12:49.95ID:AzMK4PQ3
兌を部品として含む字は説の他にも色々ある。
脱 税 悦 など。これらは統合されている。
説は何故か康煕字典の正字(Big5,KS)と楷書通用字体(JIS,GB)の2種類に分裂している。
固有名詞の表記で揉め事になる字でもない。何かの手違いかと。

>>414
日本人にとっては明らかに違う字だが中国人、韓国人などには区別しづらいようだ。
アジアからの輸入品ではそういう誤植はよく見かける。ショートカット→ツョートカシト など。
レ、し の混同も多い。
0418デフォルトの名無しさん
垢版 |
2016/08/01(月) 23:10:29.38ID:AzMK4PQ3
説と说はunicodeでは別字だった。
という事で訂正。JISは楷書通用字体、GBは簡体字。つまり3種類に分裂している。
スマンカッタ。
0419デフォルトの名無しさん
垢版 |
2016/08/02(火) 02:07:22.57ID:1KCZrKLH
>>418を通訳すると
「原規格分離などどうでもいい」

Windowsコードページ936(GBK)より
U+8AAC(説) = D568
U+8AAA(說) = D566
U+8BF4(说) = CBB5
0422デフォルトの名無しさん
垢版 |
2016/08/02(火) 20:49:40.10ID:LBy6cWLg
こうやって、タンクトップにショートパンツを貼り付けるんだお。
意味:デスクトップにショートカットを貼り付ける。
0425デフォルトの名無しさん
垢版 |
2016/08/03(水) 00:17:44.35ID:4zWXrFMO
>>398-399
中国人は元素記号を漢字1文字で表す。こんな具合。
ttp://www.akatsukinishisu.net/kanji/genso/UTF-8.html

>>419
GBKはUnicode1.1より後に出来た。何故かUnicodeの駄目な部分をかなり含んでいる。
それを引き合いに出すのは筋違いとまでは言わなくても、慎重に考える方が良いかと。
0429デフォルトの名無しさん
垢版 |
2016/08/03(水) 23:47:05.83ID:4zWXrFMO
森鴎外と書こうと森鷗外と書こうとどちらでも良い、というのが一般人の感覚。
これはそれほど不健全とは思えない。何しろ自筆原稿に「森鴎外」と書かれているんだから。
鴎は俗字だケシカラン、というのは一部の規範意識の強い正字正かな主義のキチガイ。
鷗はダメだ鴎と書け、というのはもっと訳のわからん国語改革主義のキチガイ。
こいつらがJISの83改定を行った為にカオスに。
0430デフォルトの名無しさん
垢版 |
2016/08/04(木) 08:56:22.25ID:FjB5rL2o
>>429
使いわけがされていない字体違いの漢字はまとめてしまおうというのは文字コードの問題ではない。
0436デフォルトの名無しさん
垢版 |
2016/08/05(金) 14:48:07.96ID:nIRHSvG0
この流れ、前にどこかで読んだ気がするなー、と思ったら
直井氏の「重複符号化四天王」だった。↓

ttp://d.hatena.ne.jp/NAOI/20130116/1358319668
0440デフォルトの名無しさん
垢版 |
2016/08/05(金) 22:19:20.77ID:zXAznUbh
>>430
いや、全く無関係ではあるまい。
鴎と鷗は使い分けがされていなかった、という点ではあなたも同意してくれるだろう。
原規格分離されていないのにUnicodeでは別字扱いになってしまった。
そもそも83改定を行ったJISと唆した国語審議会に元凶があったのだが、Unicodeにも責任の一端がある。
国語審議会は鷗を滅ぼして鴎に置き換えようとした。
本人に問い詰めて確認したわけではないが、多分そういう事だろう。
1000年以上にわたって使われ続けた字を滅ぼす事などそう簡単に出来る筈がない。
結局、国語審議会に滅ぼされる事なく生き残り、鴎と別の字になってしまった。

なお、最近見たベネッセの小学漢字辞典に鷗は載っていたが鴎は載っていなかった。

>>437
祇と祗は元々意味も読みも異なる別字。だが見た目が良く似ているので古くから混同される事が多かった。
「ぎおん」と入力して「祗園」と変換出来てしまうMS-IMEが悪い。
百歩譲ってその変換を認めるとしても、せめて「本来は誤用」ぐらいのメッセージは出してほしい。
0441デフォルトの名無しさん
垢版 |
2016/08/05(金) 23:24:48.92ID:Ox1rQ2Fh
>>437
フォントその他がJIS X 0213:2004対応かどうかで
偏が「示」になったり「ネ」だったりには変わるな
0442デフォルトの名無しさん
垢版 |
2016/08/06(土) 05:56:41.80ID:g/BBNoMH
もう数字の「1」も漢数字の「一」と統合しろよ。
「一回」と「1回」みたいに使い分けされてないだろ。
「ひとつ を 1つ と書くのはけしからん」なんて言う奴はキチガイ。
0443デフォルトの名無しさん
垢版 |
2016/08/06(土) 06:01:39.31ID:e+VUV2JF
使う漢字を減らそうとして常用漢字を策定しているのにそれが気に入らないなら義務教育を否定しろよ。
0444デフォルトの名無しさん
垢版 |
2016/08/06(土) 06:15:36.28ID:zLWUK7Cp
>>442
1朝1夕 とか 1石2鳥 とか 8百万(やおよろず) なんて書かれたら脱力ものだけど
今じゃこんなのは当たり前なんだろうか
0448デフォルトの名無しさん
垢版 |
2016/08/06(土) 22:32:19.37ID:E3d0sLCL
16進数
0449デフォルトの名無しさん
垢版 |
2016/08/06(土) 22:35:24.25ID:E3d0sLCL
>>447
4は、ヨン、シ
よみかたがどうなるのか

時代と共によみかたもかわるそうだが、だからといって、よみかたは、どうでもいいとはいえない
辞書順にならべかえた場合、探しにくい

しじゅうきょく
しじゅうきょくもーめんと
四極子(しきょくし、英: quadrupole, quadrapole)または四重極とは、モーメントが等しい双極子
Wikipedia
0450デフォルトの名無しさん
垢版 |
2016/08/06(土) 23:28:50.16ID:e+VUV2JF
8日をはちにち、17日をじゅうななにちと口頭で言うなって感じだな。

特に8日と4日は聞き間違う可能性は低い。
0452デフォルトの名無しさん
垢版 |
2016/08/07(日) 15:24:00.14ID:62bJhx0K
>>451
本当?
0454デフォルトの名無しさん
垢版 |
2016/08/07(日) 17:19:20.29ID:49wBLG90
>>451
教員が間違っていることはよくあるんだよな。

俺も子供のころ、いろんな担任が漢字の読みを間違っていたし。
0458デフォルトの名無しさん
垢版 |
2016/08/17(水) 16:58:01.66ID:DacIS0G0
秀丸エディタで補助漢字入りEUC-JPのデータをいじってたら何か化ける
というか秀丸がいうEUCって普通のEUC-JPじゃなくてコードページ51932(+ JIS X 0212)なのか?
0460デフォルトの名無しさん
垢版 |
2016/08/17(水) 18:48:59.59ID:DacIS0G0
コードページ51932は正直よく知らないんで何ともだが
「普通のEUC-JP」はGLにASCII、GRにJIS X 0208を最初からロッキングシフトしておいて
JIS X 0212を使いたい時はSS3で一文字づつ呼び出すやつ、という説明でいいのか?
0461デフォルトの名無しさん
垢版 |
2016/08/17(水) 19:48:09.26ID:rsNvN518
まじかよ最悪だな禿丸
でも試しに8F B2 D1を読み込ませたらX 0212の18-49が表示されたぞ
よくわからん
0462デフォルトの名無しさん
垢版 |
2016/08/17(水) 21:43:57.03ID:q9L8GmQf
CP51932の文字セットは932そのままじゃなかったかな?丸数字とか入ってる筈。補助漢字無し
unicode?51932の変換する時中で一旦932にするので注意だったような
0463デフォルトの名無しさん
垢版 |
2016/08/17(水) 23:42:13.69ID:rsNvN518
Windows-31JとJIS X 0212に有ってShift_JISに無い文字(例:U+9A4E)を含むUTF-32ファイルを開いてEUC-JPで保存する時だな。
UTF-32(U+9A4E)→シフトJIS IBM拡張文字(FB FB)→シフトJIS NEC選定IBM拡張文字(EE DF)→JIS(7C 61)→CP51932(FC E1)
という経路で変換するんだろうな。
>>458が期待したのは
UTF-32(U+9A4E)→(69 51)→EUC-JP(8F E9 D1)
だったと。
JIS X 0212はよく知らんが、UTF-32とのマッピング表がobsoleteなんだから禿丸の動作は仕方なくね
0464デフォルトの名無しさん
垢版 |
2016/08/17(水) 23:54:23.01ID:9FJ+LbN2
>>461
ほとんどは正常?なんだけど、
NEC特殊文字/NEC選定IBM拡張文字/IBM拡張文字に入ってる(中でその後JIS X 0212に採録された)280文字はコードページ932の区点が優先されるっぽい?

""はJIS X 0212に従うEUC-JPなら02区81点 8F A2 F1になるはずだが秀丸のEUCでは13区66点 AD E2になってる、
"J"は76区54点 8F EC D6になるはずだが秀丸のEUCでは92区77点 FC EDになってる。

>>462
文字集合を932と同じに拡張したEUC表現ってことでいいのかですかね、ありがとう。
0465デフォルトの名無しさん
垢版 |
2016/08/17(水) 23:58:51.50ID:9FJ+LbN2
>>463
そうそう、そういうことです!
補助漢字の前にコードページ932のNEC特殊文字/IBM拡張文字が優先なんですね……。
まあ最初からUTF-8かUTF-16にすればいいんだけど、うーん

長々とすみませんでした。
0467デフォルトの名無しさん
垢版 |
2016/08/19(金) 08:11:13.46ID:R+gedXV1
932互換でも構わんがJISX0212使っといて一部はG1(X0208)とか頭おかしいだろ
シングルシフト3は無しにして別に「EUC(0212有)」みたいな文字コードを設けろって感じ
0468デフォルトの名無しさん
垢版 |
2016/08/19(金) 13:01:11.35ID:cXkrYKyS
文字コードは難しすぎますね
すべての文字列はUTF-32で統一されるべきでしたわ
0469デフォルトの名無しさん
垢版 |
2016/08/19(金) 16:44:17.07ID:MDjzAPUc
>>466
「〜」でやられることは割とまじで良くあるな
0470デフォルトの名無しさん
垢版 |
2016/08/21(日) 00:40:20.53ID:8CSn2PR2
>>460の言う普通のEUC-JPって
「~」を保存するとX0212になるんけ?
シフトジスの円マークを超える爆弾やないか
0475デフォルトの名無しさん
垢版 |
2016/08/31(水) 19:23:24.63ID:ydwY4yt1
そう言えば昔、Unicodeのインディアンスレ?があったけど
スレは単発で終わったんだっけ
0483デフォルトの名無しさん
垢版 |
2016/09/02(金) 23:20:06.03ID:24FH2nuP
NFKD正規化って存在価値あるの?
オhルをオワットルに変換できた所で
何がうれしいのかよくわからん
0484デフォルトの名無しさん
垢版 |
2016/09/03(土) 00:41:07.59ID:2+PqWpLf
NFKDを検索したら𝐍𝐅𝐊𝐃も𝑁𝐹𝐾𝐷もマッチする方が嬉しいし
1月が㋀にマッチしたり株式会社が㍿にマッチしたら嬉しいから
俺はメリットがあると思うけど
0492デフォルトの名無しさん
垢版 |
2016/09/07(水) 03:48:29.15ID:lO0k6I5n
>>489
compatibilityがあるものだけ
何十個もcompatibilityのあるdash/hyphenはない
横棒っぽい文字を全部集めたら数十種類あると思うが
それを全部例えばhyphen-minusに変換したら
テキストの意味が変わってしまい
到底NORMALizationと呼べるようなものではない
勿論そういう変換が有効な応用ではそうしていい
0493デフォルトの名無しさん
垢版 |
2016/09/08(木) 20:41:13.60ID:vRujICD+
つまり「俺のcompatibility基準を満たしていないからダメだもん」

横棒類は全部 HYPHEN-MINUS に置き換えでいい
0499デフォルトの名無しさん
垢版 |
2016/10/05(水) 18:49:51.38ID:zQFtnK8f
来年は JIS X 0201/0208/0213/0213/0218 の見直し時期だけど
果たして 0208 と 0213 の大統合計画は進んでいるのかしら。
0502デフォルトの名無しさん
垢版 |
2016/10/06(木) 00:19:24.84ID:WcwEO0Cy
なんだかんだいろいろな場から参照されるしUnicodeの中の人も読まざるを得ないから
うんこ絵文字のバリエーション大量に紛れ込ませてUnicodeにUnko Supplementとして収録させるチャンス
0507デフォルトの名無しさん
垢版 |
2016/10/10(月) 19:30:46.05ID:cMA/MPGG
>>503
そういえば例の絵文字の肌色セレクターってうんちの健康状態セレクターにも使えそうな気がしてきた
0508デフォルトの名無しさん
垢版 |
2016/10/10(月) 22:58:01.80ID:M8ZVX+C6
うんこ色のカレーとうこん色のカレーを区別するのです

ケーキに黒っぽいVS付けたらチョコレートケーキとか
そういう汎用化は日本が提案したけど駄目だったんじゃなかったっけ?
肌の色が何とかなればいいんだってことで
0515デフォルトの名無しさん
垢版 |
2016/10/15(土) 23:01:11.77ID:D2M8VrAf
ユニコードのUAX#29(文字・単語・段落の抽出)を久しぶりに読んでみたら
Grapheme clusterの仕様が絵文字のルールに汚染されていた。
何なんだこの絵文字推しは。
0516デフォルトの名無しさん
垢版 |
2016/10/16(日) 12:53:03.20ID:OdRyVeWS
>>515
確かに追加されてる
けどemojiがある以上ルールを追加しないと仕方ないからしょうがない
合成使って性別modifierとかふざけてるけど
0518デフォルトの名無しさん
垢版 |
2016/10/17(月) 16:48:56.72ID:aoY1HCI9
フィッツパトリック肌分類って6種類あるのに
何でUnicodeのEmoji Modifiersでは5つしか入れてないんだろう
"pale white skin"と"white skin"は区別しなくていいのか
0519デフォルトの名無しさん
垢版 |
2016/10/17(月) 18:02:36.80ID:Mub28dKn
フィッツパトリック肌分類に基づいた上で1と2を一つにまとめて5段階にした
と書かれているんだから区別しなくていいと判断したんだろう
根拠は不明だが
0522デフォルトの名無しさん
垢版 |
2016/10/19(水) 07:22:54.68ID:2wj1sf6o
絵文字をざっくりしたシンボルじゃなくて
なまじリアルな絵で表現し始めちゃったのがそもそもの間違いなんだよな
0523デフォルトの名無しさん
垢版 |
2016/10/19(水) 18:20:20.85ID:+yhFT7Q1
コードポイントを追加するのはともかく
modifierみたいなコードポイント列の解釈についての
ルール追加はやめて欲しいものだ
0525デフォルトの名無しさん
垢版 |
2016/10/27(木) 22:59:57.94ID:N8soLWiI
もうBase64か何か使って直接画像のバイナリデータ埋め込めばいいのに
Unicodeのコードポイントとして登録したがるのは何で
0526デフォルトの名無しさん
垢版 |
2016/10/28(金) 00:02:59.53ID:JyUwGqf8
>>525
画像だったら機械可読じゃないだろ。
バニーガールの性別と人種を機械的に判別できるようにすることは世界にとって有益だろ?
0527デフォルトの名無しさん
垢版 |
2016/10/28(金) 16:48:59.16ID:p0VbpbVf
DoCoMoのiモード絵文字がNew York近代美術館のコレクションに | スラド モバイル
https://mobile.srad.jp/story/16/10/28/0416246/

The Original Emoji Set Has Been Added to The Museum of Modern Art’s Collection – MoMA – Medium
https://medium.com/moma/the-original-emoji-set-has-been-added-to-the-museum-of-modern-arts-collection-c6060e141f61#.cqv1mudi0

New York’s MoMA Acquires the First Ever (Very Pixelated) Emoji | WIRED
https://www.wired.com/2016/10/new-yorks-moma-acquires-first-ever-pixelated-emoji/
0531デフォルトの名無しさん
垢版 |
2016/10/29(土) 03:01:41.79ID:V/VqPJHP
同じものを見てるとは限らないということを
ほとんどの利用者は知らずに誤解を生んでる
0533デフォルトの名無しさん
垢版 |
2016/10/29(土) 10:42:34.24ID:hDIKHPTa
どう転んでも表意文字とコンピュータは相性が悪いらしいな
まさか絵文字の肌の色が問題になるとは思わんかったわ
0534デフォルトの名無しさん
垢版 |
2016/10/29(土) 10:59:34.81ID:W9gQheBG
ああいう指示は文字コードの範疇じゃないよな。
そのうちなし崩しで、ボールドにしろだのサンセリフ体にしろだのいう指示まで取り込んでしまいそうな。
0535デフォルトの名無しさん
垢版 |
2016/10/29(土) 11:11:13.16ID:SNFlkCRz
まぁ間違いなくそのうちアニメーションさせようとか言い出すだろうな

国内では文字コード濫用形式の絵文字から、単なる画像添付のデコメ絵文字に移行してたのに
なぜわざわざ国際規格で文字コード濫用形式に戻してしまったのか
0536デフォルトの名無しさん
垢版 |
2016/10/29(土) 14:02:02.47ID:QoegAjAm
日本人がいろいろ工夫したものを、当の日本人自身がガラパゴスとか
言い出してダメにしちゃうから、問題点とかがきちんと伝承されないんだよ。
0539デフォルトの名無しさん
垢版 |
2016/10/30(日) 10:57:24.93ID:QmnxrLM3
UTF-8とUTF-32に統一したいのに
WindowsがシフトジスとUTF-16の呪いをかけたままだから困る
もうWindowsごと滅んでもらうしか無い
0541片山博文MZ ◆T6xkBnTXz7B0
垢版 |
2016/10/30(日) 18:57:43.74ID:cdJKNnsC
Windowsはメモ帳もオフィスもUTF-8ファイルに対応しているよ。
WideCharToMultiByteなどもCP_UTF8付ければ変換できる。
0542デフォルトの名無しさん
垢版 |
2016/10/30(日) 19:06:13.90ID:d4hFjYHp
反論になってないし片山はやっぱりアホだな
Windowsがある限りUTF-16も生き残る、まさに呪いだな
0543デフォルトの名無しさん
垢版 |
2016/10/30(日) 20:50:41.17ID:0D55JhhC
いつも博文がクソレスで皆様を不愉快にさせて申し訳ございません
>>540のクソレスもいつものように博文がID変えた自演です
0544デフォルトの名無しさん
垢版 |
2016/10/30(日) 20:53:09.96ID:0D55JhhC
結合文字はともかく土吉(U+20BB7)の文字列の
長さが2になるのはホント、ストレスたまるぜ
0545デフォルトの名無しさん
垢版 |
2016/10/30(日) 23:02:05.66ID:qhy1bgov
>>535
日本では絵文字は文字として運用実績があったからね
キャリアごとの独自絵文字をGmailで相互運用するために整理が必要だった
整理できてしまえばあとはUnicode.orgがどう考えるか
丸囲み合成文字辺りから考えると当然の帰結だったんじゃないか
0550デフォルトの名無しさん
垢版 |
2016/10/31(月) 16:40:00.60ID:up1CNSO3
日本の3大キャリアの絵文字を収録するのはまだいいとしてもその後の毎年山盛り追加はもう何がなんだかなあ・・・
0559デフォルトの名無しさん
垢版 |
2016/11/01(火) 22:32:57.89ID:SkcuWYL1
ゴミみたいな絵文字が増えるのはまだいい。
JPの2文字で日本の国旗、という
クソな絵文字を持ち込んだ奴は死刑でいい。
0561デフォルトの名無しさん
垢版 |
2016/11/02(水) 02:56:25.72ID:pCipYitj
>>556
オックスフォード辞典の「今年の言葉」の一つに選ばれてるくらい欧州でもインターネット上を絵文字が席巻してるんだぞ
0567デフォルトの名無しさん
垢版 |
2016/11/04(金) 15:58:47.69ID:fFiZW1of
>>559
🇸🇪🇸🇪
ってTwitterに書き込んだらスウェーデンの国旗に対応してなくて
間の二文字がスペインの国旗として認識・表示されたって話
マヌケですき
0568デフォルトの名無しさん
垢版 |
2016/11/04(金) 16:48:18.71ID:LPswLb4k
>>567
え、なんだそれ。

てっきり1文字目用と2文字目用で別のポイントになってるのか、
あるいは始点か終点を示す符号があるんだと思ってた。

単に2文字続けば国、って仕様なのか。Unicodeも悪いな。
0570デフォルトの名無しさん
垢版 |
2016/11/04(金) 22:48:05.41ID:z+k+W3df
いや関係あるでしょ。
UTF-16のように1文字目と2文字目を分けておけばそんなことにはならなかった。
0573デフォルトの名無しさん
垢版 |
2016/11/05(土) 00:13:28.08ID:xEDyoPf+
前後の区別がないと、SUSE とかのときどうするのか気になる。

単純に区切ると SU | SE で

[ソ連国旗] [スウェーデン国旗]

だけど、SU の国家は現存しない。

だとすると別の可能性として S | US | E 、つまり

[S] [米国国旗] [E]

もありえそう。
0574デフォルトの名無しさん
垢版 |
2016/11/05(土) 01:01:33.47ID:gWLGUGo0
>>573
> [S] [米国国旗] [E]

普通に先頭から判別すればそうなる
少なくてもfirefoxではたぶんそう→ 🇸🇺🇸🇪
0575デフォルトの名無しさん
垢版 |
2016/11/05(土) 01:16:57.65ID:mXzE/KRi
どの2文字をペア扱いすべきかはISO国名コードの最新版に存在するかどうかを見ないと分からないってことか。ややこしいな。
0576デフォルトの名無しさん
垢版 |
2016/11/05(土) 01:20:47.71ID:mXzE/KRi
いや、最新版だけじゃだめなのか。過去のメールは送信当時のコード表を使わないと>>574みたいに半分ズレて別の国に化けるな。
0578デフォルトの名無しさん
垢版 |
2016/11/05(土) 04:17:16.49ID:fdfHcDbP
>>572
偶数で切ることになっている

UAX#29
『Do not break within emoji flag sequences. That is, do not break between regional indicator (RI) symbols if there is an odd number of RI characters before the break』
『[^RI] (RI RI)* RI×RI』
UTS51
『A sequence of two Regional Indicator characters』
0579デフォルトの名無しさん
垢版 |
2016/11/05(土) 04:21:04.76ID:fdfHcDbP
↑の「×」はコードポイント列から一文字を抽出するときに
別の文字に切り離してはいけないという意味
0582デフォルトの名無しさん
垢版 |
2016/11/05(土) 14:59:08.75ID:vOTzCdKc
>>577-578
GBSCTGBSCTと2つ並べるとGB SC TG BS CT に分解されそう(最後のCT以外全部あるっぽい)。
0584デフォルトの名無しさん
垢版 |
2016/11/05(土) 16:44:27.42ID:9npC26KJ
絵とスタイルは別のフォーマットがあるんだからそっちに委ねるべきだよな
もともとそういう方針のはずだし
0591デフォルトの名無しさん
垢版 |
2016/11/05(土) 23:08:08.40ID:BG7LImn0
従うというか、ISOに外部化しないとどの旗を収録するか(→どこを国家とみなすか)で揉めてしまう。
純粋に人任せにすることで「うちは政治的判断はしてませんよ」ってそ知らぬふりができる。
0593592
垢版 |
2016/11/06(日) 15:59:49.80ID:0naNG629
iconvがマルチスレッド対応していないってのは私の勘違いだった。
icuとiconv、両方ともマルチスレッド対応していた。
Win32環境での文字コード変換の速度比は以下の通りになった。
Win32API は、WideCharToMultiByte() 等を使った。

Win32API : cygwin-iconv : cygwin-icu = 1 : 3 : 2
0595592
垢版 |
2016/11/06(日) 16:49:22.61ID:0naNG629
やはり波ダッシュ「〜」、「〜」が鬼門。

>>594
失礼しました。所要時間の比です。
0597592
垢版 |
2016/11/06(日) 19:53:07.52ID:0naNG629
なぜiconvがマルチスレッド対応してないと思い込んでしまったかというと、
cygwinでC++11の thread クラスで work() と join() を使ったマルチスレッドの小さい勉強用プログラムを試しに書いたんだけど、
処理の所要時間を得るために、clock()で計時したんだけど、その数値がデタラメだったことが原因。
cygwinのclock()の戻り値の信頼性がここまで低いとは知らなかった。

>>596
了解。ハンドルを複数スレッドで使いまわすつもりは最初からなかったです。
ライブラリ関数内部で排他ロックしてるのかと思い込んだ私のミス。

処理速度・将来性・プロジェクトの活発さを考えると、iconvよりicuの方が有望に思える。
0599592
垢版 |
2016/11/06(日) 23:12:19.37ID:0naNG629
mingw系は、GitやStrawberry Perlに付属のMINGWのbinがPATHに入り込んでいて、無事にmakeを貫徹することさえままならないので当分報告できない。あしからず。
0600デフォルトの名無しさん
垢版 |
2016/11/06(日) 23:41:14.17ID:eMFucsGq
プログラムを組むような人なら普通はPATHなんていくらでも変更出来るけど
ままならないなら仕方ない
0601デフォルトの名無しさん
垢版 |
2016/11/07(月) 04:13:30.95ID:EaPQMBZD
>>599
インストーラーが「PATHを設定しますか?」で選択しを与えてくれてるのに
読まないでパコパコインストールしまくる馬鹿ですね
0605デフォルトの名無しさん
垢版 |
2016/11/07(月) 17:45:16.90ID:2+R9ECvu
なお、3166-2のやつはRI使わない方向のようなのでほとんどの問題は解決されそう。
ただそうなるとますますあの不出来なRIって何だったのかって感じに。
0606592
垢版 |
2016/11/07(月) 22:27:59.51ID:6EByQkLc
mingwでiconv, icuを試した。
iconvは、MINGW Installation Managerが提供するバイナリを使用した。
icuはバイナリは提供されていないのでソースからビルドした。
icuはそのままだとlocale関連のAPIが公開されていないMINGW版がビルドができないので、
_create_locale() と _free_locale() のダミー関数をソースに追記してビルドを通した。
所要時間の比は以下の通り。
MINGWだと、iconv、icuともWin32とあまり違いがないようだ。

Win32API : mingw-iconv : mingw-icu = 1 : 1.08 : 1.11

なお、>>593 でのcygwinは、iconv、icuともにcygwin用に提供されているバイナリを利用している。
0608デフォルトの名無しさん
垢版 |
2016/11/08(火) 01:14:10.78ID:Q1ozlGt4
変換する文字列の長さが短すぎて
変換速度よりもsystem callの呼び出し速度のベンチになってない?
0609デフォルトの名無しさん
垢版 |
2016/11/08(火) 09:16:34.50ID:WBfil5Sr
生の値(時間)を書くのが普通
比率という時点で何か隠してるようにみえる
0611592
垢版 |
2016/11/08(火) 20:34:22.36ID:qWOFxdzf
無駄な情報を捨てて必要な情報だけ提供した善意を、悪意を持って隠したと曲解する人がいて面白い。トランプ支持者っぽい。
テストプログラムやら実行環境やらまで公開して他の人が再現できるようにでもしない限り、生の実測時間を提示する意味はない。
0613デフォルトの名無しさん
垢版 |
2016/11/08(火) 22:32:50.94ID:HtqjUltN
同じ10倍でも例えばミリ秒のオーダーと秒のオーダーでは全然違う。
計測時間そのままコピペする方が楽だろうに、態々比率に直すのは、、、
パワポ資料作るお仕事の人と見た。
0614デフォルトの名無しさん
垢版 |
2016/11/10(木) 16:00:00.53ID:UEg1zsO/
JIS X 0201/0208/0213がいつの間にか

> 2016-10-20 確認

になってる。
今回は特に何もなしか(あったらまた困るけど)
というか改正来年じゃなかったのか……。
0617デフォルトの名無しさん
垢版 |
2016/11/11(金) 15:58:27.67ID:Y1SxtmaI
0208の1978年版とか2012年版とかじゃなくて刷?

ttp://okazaki.sakuraweb.com/biboroku/78jis/78jis.html

によるとJIS C 6226-1978は少なくとも第7刷まで増刷されたらしいけど、
JSAとかJISCに問い合わせても多分当時の資料とか無いだろうな。
0618デフォルトの名無しさん
垢版 |
2016/11/12(土) 15:38:19.16ID:q7jUFepj
>>616
刷は改定ごとに一から始まるので刷ごとの差は無い
そしてJISは様々な規格があるのでJISが何刷ということは言えない
0621デフォルトの名無しさん
垢版 |
2016/11/14(月) 16:57:09.25ID:YqiB904W
なんでもかんでもZWJでいくなら最初から人間+魚でよかった。

そしてうっかり順番を入れ替えて魚+人間にすると……!!
0623デフォルトの名無しさん
垢版 |
2016/11/14(月) 17:48:16.83ID:rIoU2mi1
俺がもっとクールな新絵文字考えたぜつって、合字でオレオレ絵文字ZWJ実装するフォントが現れだして収集つかなくなりそう
0625デフォルトの名無しさん
垢版 |
2016/11/14(月) 18:50:06.09ID:YqiB904W
>>623
うわありそうで怖い。
PUAと違って意味があるぶん、
大手が流行らせた合成絵文字はそのまま追認するしかない未来が見える。

例えばTwitterとか、Android OSとかがオレオレ絵文字実装したら
一般人が違いに気付かずに使って膨大な使用例ができるよね……
0629デフォルトの名無しさん
垢版 |
2016/11/15(火) 21:50:35.83ID:PldPJ2O3
合成するぐらいなら
文字列の途中にエンコードしたビットマップを挟み込めるようにしろ
0638デフォルトの名無しさん
垢版 |
2016/11/24(木) 20:15:24.01ID:V+CGDzRP
ーヲノイクゥ
イャサウクゥ
ケ篥ホクゥ
ケュナ邵ゥ
サースナクゥ
サウキチクゥ
ソキウ羣ゥ
タ鯱ユクゥ
タナイャクゥ
ツ郤衙ワ
ツ醋ャクゥ
トサシ雕ゥ
ナ郤ャクゥ
ニ猥ノクゥ
ニチナ邵ゥ
ニハフレクゥ
ノルサウクゥ
ハ。ー貂ゥ
ハ。イャクゥ
ハ。ナ邵ゥ
ハシクヒクゥ
ヒフウ、ニサ
マツイホサウクゥ
0639デフォルトの名無しさん
垢版 |
2016/11/25(金) 09:57:28.56ID:M66ENQJY
愛媛県
岡山県
高知県
広島県
三重県
山形県
新潟県
千葉県
静岡県
大阪府
大分県
鳥取県
島根県
奈良県
徳島県
栃木県
富山県
福井県
福岡県
福島県
兵庫県
北海道
和歌山県
0645デフォルトの名無しさん
垢版 |
2016/12/28(水) 07:28:33.43ID:XevzpVey
>>110
おいおい、ちゃんと規格読んでる?
原則、部首画数順だぞ。unihanデータベースも推奨ソートキーが部首画数順になってる。
0654デフォルトの名無しさん
垢版 |
2017/01/06(金) 14:36:30.66ID:XtKi9eaG
test
0656デフォルトの名無しさん
垢版 |
2017/01/19(木) 23:22:23.28ID:kAhgSygC
ユニコードコンソーシアムのProposed New Charactersみてたら
HIRAGANA LETTER SMALL WI、HIRAGANA LETTER SMALL WE、HIRAGANA LETTER SMALL WO、
KATAKANA LETTER SMALL WI、KATAKANA LETTER SMALL WE、KATAKANA LETTER SMALL WO、
KATAKANA LETTER SMALL N
つまり小さい「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」があった。
小さい「こ」と「コ」は以前U+1B002とU+1B003に提案されてたが
そこは変体仮名が入ることになってU+1B127、U+1B128に変わってた。
変体仮名の数が多すぎてKana Supplementブロックに入り切らなかったから
その直後のU+1B100〜U+1B12FにKana Extended-Aブロックを作るんだな。
でU+1B100〜の予定だった女書は1B170〜にずれた。
0660デフォルトの名無しさん
垢版 |
2017/01/20(金) 04:21:35.39ID:SuI25zgd
美乳
0663デフォルトの名無しさん
垢版 |
2017/01/20(金) 13:48:47.52ID:XOQ1SR2o
平成
0664デフォルトの名無しさん
垢版 |
2017/01/20(金) 16:02:46.66ID:HZJT4SPy
UTF-8と称しつつ実際はISO/IEC 8859-1(or Windows-1252)使ってるサイト早く絶滅しないかな〜。
0666デフォルトの名無しさん
垢版 |
2017/01/22(日) 23:54:36.79ID:I5eFmZgm
シマンテックのインストーラー「Symantec? Veritas NetBackup?をインストールします」
俺「俺は今 何をインストールしているんだぜ…?」
0669デフォルトの名無しさん
垢版 |
2017/01/25(水) 15:54:19.97ID:O1e4fHbH
Windows 2000あたりのセットアップ画面(ブルースクリーン)は左上に

ソソソソソソソ

みたいなのが並んでた気がするんだけどあれは何が化けていたんだろう。
0670237
垢版 |
2017/01/25(水) 22:09:22.42ID:gTVlV55T
>>669
CP437?
0673デフォルトの名無しさん
垢版 |
2017/02/03(金) 15:53:54.77ID:AImPimr2
ソじゃなくてヘだな

Windows 2000 Setup
ヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘ
0678デフォルトの名無しさん
垢版 |
2017/02/20(月) 23:48:25.19ID:SiY39E3I
regional flagsって日本の都道府県旗も追加されんの?
東京の旗が銀杏か肛門かで揉めそう
0679デフォルトの名無しさん
垢版 |
2017/02/21(火) 00:45:25.29ID:nlr0ZxeU
ってか日本の都道府県旗ってJISか何かで規格化されてるんだろうか
されてないなら根拠になる個別の条例を探して判断することになるのか
0681デフォルトの名無しさん
垢版 |
2017/02/22(水) 03:17:26.03ID:4ggKEg2C
旗の形ではなく県章部分だけでグリフ作ってもらえたらいろいろ独創的な応用が利きそうだ。
0685デフォルトの名無しさん
垢版 |
2017/02/23(木) 13:21:45.70ID:eG9NqkD/
>>680
知らなかった
ありがとう
2ちゃんもたまには役に勃つな
0688デフォルトの名無しさん
垢版 |
2017/02/23(木) 19:43:12.70ID:lh6GP4kZ
🏳️‍🌈
🏴‍☠️
0689デフォルトの名無しさん
垢版 |
2017/02/23(木) 23:02:08.28ID:Mc4LemLc
>>687
どうもかみ合ってない気がする。
仕様できっちり規定されてれば楽だけどそういうものじゃないよね、
なら代わりになる典拠があれば楽なんだけどな、って話してたつもりなんだけど。
0690デフォルトの名無しさん
垢版 |
2017/03/02(木) 13:04:44.68ID:Dk3HQyow
仕様を読んだ上でそんなこと言ってるなら、読解力が足りないとしか言えないわ
0692デフォルトの名無しさん
垢版 |
2017/03/03(金) 19:38:34.87ID:r16C7uTR
もういくつ寝るとunicode10
ゾンビとか吸血鬼とかせっそうなさすぎ
こんな絵文字使われるのかよ
0694デフォルトの名無しさん
垢版 |
2017/03/04(土) 12:37:47.12ID:GRvQ2lmz
>>692
他にやることあるのにね
無能なんだろ
0695デフォルトの名無しさん
垢版 |
2017/03/04(土) 17:17:33.70ID:eGgxEr5u
すべての文字を収めるが目的のはずが
新しいアイコンを作ろうになってるからな
0696デフォルトの名無しさん
垢版 |
2017/03/04(土) 23:52:53.04ID:+pEijc2g
絵文字なんか作ったってフォントごとに微妙に変わるし不毛だよ
何種類用意したって満足ってことはないし、無駄な仕事が増えるだけ
それならむしろ、エンコードしたビットマップかベクタグラフィックを
文字列の途中に文字として挿入できるようにしたほうがマシだろ
0697デフォルトの名無しさん
垢版 |
2017/03/05(日) 00:03:46.99ID:xrJm/RDc
100種類用意しました
1000種類用意しました
10000種類用意しました
・・・
どこまでいってもこんなものは・・・
絵文字っていわゆるラインスタンプみたいな使われ方を想定しているんだろ?
すべてのラインスタンプに文字コードを割り振るみたいなものだ
時代に合ってない
文字列の途中にビットマップかベクタグラフィックを挟み込める方が絶対良いって
そうすると当然絵文字職人みたいな人たちが出てきてにぎわうだろうから
それをコピペして使えばよいのだ
標準化委員会みたいな中央で絵の形とコードを取り決めて・・・ってスタイルは時代遅れだよ
ラインスタンプを見ろよ
0698デフォルトの名無しさん
垢版 |
2017/03/05(日) 23:06:39.70ID:nindsAFW
たしかに
特定のコードとそれに続く何byteかでbitmap図形っていうのはありかもね
無駄多いけど
0699デフォルトの名無しさん
垢版 |
2017/03/06(月) 08:18:41.33ID:n/Fv95sm
最近の追加は絵文字じゃなくて絵になってるからな
文字コードに色を定義したり芯のない継接ぎ仕様でやりたい放題だよな
0701デフォルトの名無しさん
垢版 |
2017/03/15(水) 08:13:46.98ID:eV3tx5Ei
縦書きテキストレイアウトってまたおかしなことになってんな
変体仮名は文字情報基盤の範囲ならいいんじゃね
0704デフォルトの名無しさん
垢版 |
2017/03/15(水) 15:48:49.66ID:tq6fONxP
「導入」ってのは

> さらに、Unicode Vertical Text Layoutが標準の一部として取り込まれる点が注目される。

って本文に書いてあるんだから Unicode® Technical Report が Unicode® Standard Annex に昇格して
Unicode® Standard の一部になるってことでしょ。
0706デフォルトの名無しさん
垢版 |
2017/03/28(火) 22:50:13.41ID:ky5+niZ/
こんだけ増えてくると幾らアホなアメリカ人でも
UTF-16捨てたくなってくるだろ
0707デフォルトの名無しさん
垢版 |
2017/03/29(水) 08:08:48.71ID:81RbfoHk
こういう流行り廃りのあるものはMarkdown emojiのようなやり方で十分だしそっちの方が
便利だと思うがなぁ。そもそも欧米の連中、Unicode入力のためにIMEとか導入してるんだろうか?
0708デフォルトの名無しさん
垢版 |
2017/03/29(水) 12:59:49.14ID:v2ySqvAX
イングランド、スコットランド、ウェールズは入れたのに北アイルランドは入れなかったのか
しかし U+1F3F4 U+E0067 U+E0062 U+E0065 U+E006E U+E0067 U+E007F を一つの国旗として処理しろってそれは
0709デフォルトの名無しさん
垢版 |
2017/03/29(水) 14:50:05.48ID:IUBNo9UW
ほらもうこれ、いったい何に使うのっていう
ラインスタンプと比べるともはや・・・
まるで社会主義国家のようだし
今の時代の速度感と全然合ってないんですけど
0716デフォルトの名無しさん
垢版 |
2017/03/31(金) 18:39:57.95ID:cAvSJqfg
> 少なくとも検索に関しては、「ガ」と「ガ」を同じにみなす必要があり、
> <U+FF76 U+FF9E>とU+30ACと<U+30AB U+3099>とを、 全て同じだとみなす必要があるということでしょう。

安岡は何当たり前のこと言ってんだ
JIS信者のクセに慣れないUnicodeについて語るとこういった低レベルな恥ずかしい記事になる
0717デフォルトの名無しさん
垢版 |
2017/04/01(土) 22:40:22.15ID:7/71KzK1
濁点は独立したコードポイントを持っていても結合文字みたいなものだし、
U+30AB U+309B の場合も「ガ」と同じにみなすべきだろうね、検索の場合
0719デフォルトの名無しさん
垢版 |
2017/04/07(金) 00:08:24.84ID:qNFTJj2D
U+10FFFFまで埋めないと死んじゃう病にでもかかってるのかね、粗製濫造してんのは
0721デフォルトの名無しさん
垢版 |
2017/04/12(水) 14:45:57.95ID:jhOW+nqF
正規化が悪なんじゃなくて、正規化を表に出す事が悪なんだよ
パソコンを裸族で使う様なもんだ
素人にはオススメできない
0722デフォルトの名無しさん
垢版 |
2017/04/13(木) 18:03:47.78ID:TzW03HI9
>>719
困った病気だねぇ。
埋めずに空きをたくさん残しておいた方が未来の子孫に感謝されるぞ。


多分。
0723デフォルトの名無しさん
垢版 |
2017/04/25(火) 06:30:16.64ID:DObvS+Kg
>>712
UTF-16で使えるじゃん?UCS-2と勘違いしてる?
0725デフォルトの名無しさん
垢版 |
2017/05/11(木) 08:21:06.84ID:49ESVgQe
多言語制定で見えてきた課題を一挙に解決してUnicode Neueでも立ち上げたらいいのに
バグをバグのまま残さなきゃいけないなんて仕様として不健全すぎるわ
0728デフォルトの名無しさん
垢版 |
2017/05/20(土) 12:07:31.13ID:GVSnCE+6
ISO 10646って2月に発行フェーズ入ったのにまだ発行できてないのは
何やってんだ?
0730デフォルトの名無しさん
垢版 |
2017/05/26(金) 12:00:03.39ID:4g2o9CtM
Unicode の Core Specification の日本の元号の説明(日付)が間違ってるのはいつ修正されるんだろう?
0732デフォルトの名無しさん
垢版 |
2017/05/26(金) 22:00:22.89ID:mIO9asAV
>>731
ttps://techracho.bpsinc.jp/chiba-junichi/2016_09_27/25490

他にもあるかもしれませんが、自分はこのページで初めて知りました。
0733デフォルトの名無しさん
垢版 |
2017/05/27(土) 03:01:17.90ID:V3ffhZkY
>>730-732
TZを間違って読んでるだけでは?
0734デフォルトの名無しさん
垢版 |
2017/05/27(土) 03:15:47.09ID:hVyPua6a
ヒカル TV出演「年間5億は稼ぐ勢いですね」
https://www.youtube.com/watch?v=G7qL6ftpets
第1回案件王ランキング!YouTuberで1番稼いでるのは誰だ!
https://www.youtube.com/watch?v=asF2wQ2xhjY&;t=61s
ユーチューバーの儲けのカラクリを徹底検証!
https://www.youtube.com/watch?v=FUSb4erJSXE&;t=504s
YouTuberになりたいのは馬鹿じゃない!YouTuberになる方法
https://www.youtube.com/watch?v=Fr0WXXZRMSQ

最高月収5000万円だとさ。年収じゃなくて「月収」な
おまえらもyoutubeに動画投稿したほうがいい
最低2年はやらないとここまではいかないだろうけど才能とアイデアと
企画力と継続力があればが大儲けできる可能性がなくもない
まだまだ他の職種に比べれば競争率は低いからオススメ
0737デフォルトの名無しさん
垢版 |
2017/06/01(木) 03:44:11.18ID:82KsO+uD
time zone
0738デフォルトの名無しさん
垢版 |
2017/06/01(木) 11:37:45.12ID:o/dQD8LP
thin skin zone
0741デフォルトの名無しさん
垢版 |
2017/06/04(日) 21:55:56.10ID:mjDwcbxw
正直旗イメージより「伊」「蘭」「仏」とかで表示してくれたほうがわかりやすい国もある
0742デフォルトの名無しさん
垢版 |
2017/06/09(金) 22:09:35.50ID:PK+Q1cYY
WG2 N4825によると1B130〜1B16FはSmall Kana Extensionにすることにしたらしい
でもreserved forなんてやるくらいなら、使用例があるものはとっとと入れちゃえばいいのに
0743デフォルトの名無しさん
垢版 |
2017/06/09(金) 22:31:03.58ID:7OSi6V+4
何に使えるのかな
ちっちゃいウンコが書けるようになるぐらいしか思いつかなかった
0748デフォルトの名無しさん
垢版 |
2017/06/21(水) 12:15:04.06ID:GUHwFNed
もう月次のバージョンアップでいいからCore specificationとUCDの改版を分離してくれ
0750デフォルトの名無しさん
垢版 |
2017/06/23(金) 14:19:48.92ID:xOTwvtKW
例示字形でフォント作ってくれないかね
とりあえず表示できればいいっていう場面は意外と多いと思うんだけど
0751デフォルトの名無しさん
垢版 |
2017/06/23(金) 14:44:56.43ID:0OdP20aK
2byte+任意の8x64byteみたいなbitmap造ってくれないかな
0753デフォルトの名無しさん
垢版 |
2017/06/23(金) 22:22:21.49ID:JgWE6lrM
Googleはそのつもりなのかもしれないけど、実際にはカバーできてないよ
符号化済みの漢字だけで1フォントの収納限界グリフ数(65535)を超えちゃってるから
全部カバーしようと思ったら漢字フォントだけでも2つ以上に分けないといけない

それなのにNoto CJKは、PanCJKという思想で漢字だけじゃなく仮名やハングルまで
1フォントに押し込んでしまった
おかげでUnicode 10で符号化された変体仮名なんかも入れるスペースがない
0754デフォルトの名無しさん
垢版 |
2017/06/23(金) 23:32:51.59ID:vCpZUNAe
変体仮名がついにUnicodeに追加されたんだな。
戸籍名に変体仮名が含まれてる可能性のある世代が存命中に間に合ってよかった。
戸籍名以外でも店の看板とかに使われてる事もあって、
うなぎ屋で「うなぎ」の「な」が「ふ」の真ん中を「ち」に変えたようなの(U+1B081)
になってるのは割りと良く見かける。
0756デフォルトの名無しさん
垢版 |
2017/06/25(日) 18:02:05.37ID:gomAIGS/
ひらがな
0757デフォルトの名無しさん
垢版 |
2017/06/25(日) 22:38:53.97ID:zF3XL20Z
Unicodeに変体仮名が追加されても、使えるのはUnicode文書の中だけで
戸籍に使えるかは別
0759デフォルトの名無しさん
垢版 |
2017/06/26(月) 02:51:52.22ID:rSD39/hr
テスト
👲👲🏻👲🏼👲🏽👲🏾👲🏿
0761デフォルトの名無しさん
垢版 |
2017/06/26(月) 17:57:52.21ID:sAGGquQo
変体仮名収録のフォントがOSに標準で搭載されるのはまだ先になりそうだな。
2chやツイッター等使われるのはそれからだな。
0764デフォルトの名無しさん
垢版 |
2017/06/26(月) 23:10:27.44ID:Sqt2RVbj
Winはゴシックの方は対応しそうな気がする
Macは基本的にAJ1-6にないものはスルーだろうな
0768デフォルトの名無しさん
垢版 |
2017/06/30(金) 23:42:15.21ID:41SVCjyH
変体仮名には濁点や半濁点付きもあるけど、それらはやはり合成用濁点(U+3099)や半濁点(U+309A)を付けて表わせなのかな。
0772デフォルトの名無しさん
垢版 |
2017/07/01(土) 17:19:00.11ID:nV0voxDD
Decomposition_Mappingは結合の目的も兼ねるので
むしろ「書いてないからこそ自分で結合」
0778デフォルトの名無しさん
垢版 |
2017/07/12(水) 08:29:42.86ID:pZQyr2Pt
IVSとaj1、汎用の兼ね合いを聞くに、文字セットの粒度の違いって漢字に限らず全ての文字セットに共通の問題だな。
声の大きい人がいる漢字カテでしか語られないけど
0780デフォルトの名無しさん
垢版 |
2017/07/18(火) 19:43:33.65ID:cVXFU6mc
顔から緑のが出てるやつ、それ普通に吐いてる絵文字だったんだな
緑だから野菜嫌いな子供みたいな意味なのかなと思ってた。
0781デフォルトの名無しさん
垢版 |
2017/07/19(水) 22:46:24.80ID:vMGHf8tr
「外字」という言葉、使えなくなるかな。同音異義語の差別用語を連想するから。
これからは「ユーザ定義文字」や「ベンダ定義文字」、「私用文字」、「規格外文字」とかに置き換えるべきかな。
0785デフォルトの名無しさん
垢版 |
2017/07/20(木) 12:32:55.14ID:IUJJzkHn
「外字」という表記はそのままで、
読みを変えて「そとじ」と言うことにしよう。
0788デフォルトの名無しさん
垢版 |
2017/07/25(火) 23:23:42.52ID:LLM1ZCjk
「がいじ」と聞くと昔から文字コードヲタの自分はやっぱりまず、
各ユーザがエディタで自作して定義する文字や、ベンダが空き領域に独自に定義した文字等の
規格外の文字であることを示す「外字」が思い浮かぶ。
まさか同音の差別用語が生まれるとは思わなかった。今日では2chの至る所で見かけるし。
0791デフォルトの名無しさん
垢版 |
2017/07/26(水) 23:29:07.92ID:ctIBmsHN
最近は外字あまり使われないよな。文字コードに無いのは画像にして貼り付ける事が多いし。
0792デフォルトの名無しさん
垢版 |
2017/07/27(木) 04:45:21.73ID:wpPsIhCe
ガイジという言葉を知っていますか

Twitterでガイジという言葉を見かけました。
呟いていた方に聞いてみたら、大学生位の方が言っていたと。
果たして、言葉の意味を理解して使っていたのでしょうか。
ガイジとは、障害児を略した言葉です。障害児に対する、強烈な差別意識を感じさせる、悪意を持った言葉です。
この言葉を使えば、それだけで特定の人々、つまり障害を持つお子さんを差別したことになります。
障害児を略しただけだ、言葉の意味は変わらない、と言われる方もいらっしゃるかと思います。
違います。障害児は区別する言葉、ガイジは差別する言葉です。
0794デフォルトの名無しさん
垢版 |
2017/07/27(木) 12:52:52.60ID:OdPeHFfE
>>792
違いますよ。
ここで言うガイジとは外字のことで、ウィキペディアから引用すると「特定の文字集合(文字コードなど)に含まれない文字のこと」となります。
差別はあなたの心の中にあるのです。
0795デフォルトの名無しさん
垢版 |
2017/07/28(金) 12:48:01.85ID:dbHFcG6T
ISO/IEC 10646
前見た時はページ数

> Number of pages : 2697

だったのに今見たら

> Number of pages : 136

になってる? 何があった。
0799デフォルトの名無しさん
垢版 |
2017/08/02(水) 07:35:28.28ID:ka6IexAb
架空文字(スタートレックとか)は頑なに却下するくせに、絵文字はどんどん創作して追加してるのダブスタだよな
架空文字も絵文字として申請すれば良いのか?
0805デフォルトの名無しさん
垢版 |
2017/08/05(土) 16:21:53.87ID:NtivcnXJ
世界中の文字セットを1つに扱うのが目的であって、新しい文字を創作するのはおかしいのにね
0806デフォルトの名無しさん
垢版 |
2017/08/06(日) 09:56:20.49ID:qWN01ODb
>>800
ポケモン約800種類全てを全国図鑑番号順に割り当てられたりして。
♂♀の選択やフォルムチェンジはVSのような専用の符号を後ろに付けるとかで。
0807デフォルトの名無しさん
垢版 |
2017/08/06(日) 10:19:15.27ID:sla8IrYb
人の肌の色に対応するんだったら馬の毛色にも対応してほしい。
青毛、鹿毛、栗毛、芦毛とか。
0808デフォルトの名無しさん
垢版 |
2017/08/06(日) 19:19:25.07ID:q/iOXjTE
ピカチュウ入れたら
「ドラクエのスライム入れろ」「FFのチョコボ入れろ」「マリオ入れろ」
とかになっちゃうがな。
0812デフォルトの名無しさん
垢版 |
2017/08/07(月) 13:23:43.13ID:9Mdxb5QD
絵文字は日本のケータイで使われていてベンダ間で
交換もされてたから入ったわけで、ポケモン等は意味不明
0813デフォルトの名無しさん
垢版 |
2017/08/08(火) 20:54:41.14ID:PndXgq1K
>>812
今や携帯由来の絵文字は極少数
Unicode独自定義の絵文字ばかりになった
法的な問題がクリアできれば需要はある
0815デフォルトの名無しさん
垢版 |
2017/08/09(水) 18:15:40.27ID:5nByh/9q
ピカチュウは
U+1F401 U+200D U+26A1(鼠、マウスの絵文字 + ZWJ + 高電圧、雷マーク)
で表す事にしよう。
0817デフォルトの名無しさん
垢版 |
2017/08/09(水) 23:10:01.92ID:d92boKtE
>>807
サバトラとかキジトラ白とか三毛とか
0822デフォルトの名無しさん
垢版 |
2017/08/17(木) 14:19:45.83ID:vMvhQSc5
上にのせるものは結合文字でいい
幾つでものせてよし
もちろんホイップにイチゴは合成済み文字で
0824デフォルトの名無しさん
垢版 |
2017/08/18(金) 12:09:15.45ID:FcTfUvNw
Jアラート訓練 メール電文が文字化けのトラブル
8月18日 11時51分

島根県で行われたJアラート=全国瞬時警報システムを使用した緊急情報の送受信訓練で、県の防災メールでテスト電文が配信されましたが、画面が文字化けして読めないというトラブルがありました。
島根県によりますと、防災メールにはおよそ1万5000人が登録しているということですが、どの程度の範囲で文字化けが起きたのかなど詳しい状況について確認を進めているということです。

島根県防災危機管理課は「きちんと情報が伝達できずに申し訳ない。現在、原因の究明を進めていて、今後こうしたことが起きないように努めたい」と話しています。 
http://www3.nhk.or.jp/news/html/20170818/k10011103391000.html
0828デフォルトの名無しさん
垢版 |
2017/08/18(金) 16:20:36.62ID:RRX5RBja
>>826 を見るとこんな感じに化けてる

$ echo '2017年08月' | iconv -f SJIS -t UTF-8
2017蟷エ08譛

つまり、メール送信システムはSJISのテキストを受理するように作られていて
誤ってUTF-8のテキストを入れてしまった。ってことかな
0829デフォルトの名無しさん
垢版 |
2017/08/18(金) 16:28:58.20ID:f8KfeV+E
「即時音声合成」
2017年08月18日11時00分
これは、Jアラートのテストです。
これで、テストを終了します。
対象地域:
鳥取県 島根県 岡山県 広島県 山口県 徳島県 香川県 愛媛県 高知県



縲悟叉譎る浹螢ー蜷域・縲・
2017蟷エ08譛・8譌・11譎・0蛻・
縺薙l縺ッ縲゛繧「繝ゥ繝シ繝医・繝・せ繝医〒縺吶ゅ
縺薙l縺ァ縲√ユ繧ケ繝医r邨ゆコ・@縺セ縺吶ょ
蟇セ雎。蝨ー蝓滂シ夐
魑・蜿也恁縲蟲カ譬ケ逵後蟯。螻ア逵後蠎・ウカ逵後螻ア蜿」逵後蠕ウ蟲カ逵後鬥吝キ晉恁縲諢帛ェ帷恁縲鬮倡衍逵啓

か。
ヘッダとフッタが正常なのが泣ける
0837デフォルトの名無しさん
垢版 |
2017/09/13(水) 20:02:44.61ID:KWwY7/kL
iPhoneXで動く絵文字Animojiまで出てきた
最初からUnicodeとは別の仕様作ってバリバリ仕様改変していけば良かったのにな
0838デフォルトの名無しさん
垢版 |
2017/09/13(水) 23:58:47.08ID:i8DgB3mu
IPAmj明朝はバージョンアップまだかな?
変体仮名が内部に含まれてるけどこのままじゃ使えない。
cmapテーブル改変すりゃ使えるけど公式で使えるようになるのはいつになるかな。
0849デフォルトの名無しさん
垢版 |
2017/09/18(月) 16:48:59.00ID:ygz3rI3S
>>846
後付けだからでは
いわゆるNEC特殊文字というのがいつ出来たか詳しく知らないけど1983年頃には使えたはずで
その頃は当然まだ昭和で平成は影も形もない
「~」が13区63点に入った理由もよく知らないけど一番外字で埋められてなさそうな端っこにしたとかだろうか
0850デフォルトの名無しさん
垢版 |
2017/09/18(月) 22:35:48.18ID:w6oSciVB
>NEC特殊文字というのがいつ出来たか詳しく知らないけど1983年頃には使えたはず

そんな本当のことを言うと、NEC特殊文字が1997年の
Shift_JISの拡張と妄信してる先生の世界に矛盾が生じてしまうだろ
0852デフォルトの名無しさん
垢版 |
2017/09/19(火) 03:05:46.20ID:qsNfDhHd
MSゴシック/MS明朝/メイリオとIPAって、
~は縦書きグリフでも横に並べたままなのね。

実際の使用現場では縦横どっちのほうが便利なんだろ。
0853デフォルトの名無しさん
垢版 |
2017/09/19(火) 05:07:32.07ID:33S+M35U
手元のフォントだと、~だと縦になるフォントと横のままのフォント両方あるけど、iとかは全部縦になる
ってことはデザイナーが意図して横のままにしてるんだろうな
0857デフォルトの名無しさん
垢版 |
2017/09/20(水) 07:34:34.62ID:ZYEvUxiN
InDesignやIllustratorの縦中横機能を使えない一般ピーポーのための“貧者の縦中横”じゃないの?
0858デフォルトの名無しさん
垢版 |
2017/09/22(金) 18:32:09.05ID:QCzCo6Xh
そのアホと仕様化メンバーのアホがコラボしてUnicodeの属性がむちゃくちゃになったからな
0859デフォルトの名無しさん
垢版 |
2017/09/26(火) 23:12:20.44ID:ZBZ84yRG
Unicodeが独断で絵文字を追加して、SC2/WG2の投票を通さず勝手にUnicodeチャートを
アップデートしてることにアイルランドNBから文句がついた(WG2 N4888)
0861デフォルトの名無しさん
垢版 |
2017/09/27(水) 22:27:48.19ID:CfAOIjZ1
アイルランド代表ってファックサインとバルカン式挨拶の絵文字入れた件の印象しか無いな
真面目?な仕事もしてるんだなさすがに
0863デフォルトの名無しさん
垢版 |
2017/09/28(木) 01:10:46.04ID:/8a1xhL4
Unicodeの代わりになる何かができたとして、
それには確実にUnicode互換文字がずらりと入っているはずだから一生Unicodeみたいなもんだ。
0871デフォルトの名無しさん
垢版 |
2017/09/30(土) 02:49:12.29ID:R0O9XLNW
Adobeは新グリフセットAdobe-KRを作ることにした模様
いつになったらAJ1-7に取り掛かるんだ…
0872デフォルトの名無しさん
垢版 |
2017/10/01(日) 23:26:06.97ID:0lGqZVhk
>>869
そもそも顔絵文字なんかは表情を記号化したものであって特定の人種を表現したものではない
差別がなかったところにあえて差別を持ち込んで差別をなくす方法論を議論する事自体おかしい

特定の人種の特徴を持たせたいなら書体と同様にフォントなどでフォローすべき
0873デフォルトの名無しさん
垢版 |
2017/10/02(月) 02:39:27.88ID:791wgfKq
レゴも昔はそういう感じで全部黄色い人だったけど、
いつの間にかリアル人種に合わせた色がたくさん出るようになってしまった
0875デフォルトの名無しさん
垢版 |
2017/10/05(木) 08:20:09.15ID:puXRBXzi
>>872
フェイスマーク系が全部黒人の絵文字のフォントがあったとしても仕様満たしてるしな
そのうち「絵文字では皮膚色選べるんだから通常文字に文字色選択子が必要」っていう逆の発想が出てきそう
0876デフォルトの名無しさん
垢版 |
2017/10/06(金) 21:44:06.11ID:EeCF6Ukp
なぜかPDAM2.2(n4904)から小書き"こ"が消えてるなあと思ったら
どうも日本NBが小書きのかな全般に文句つけたのが原因みたい(n4871)

調査するから一旦投票から外してほしいってことらしいが、コードポイントが
五十音順になるようreserveされてるんだから、順次追加していくのでも
問題ないだろうに日本NBは何が不満なんだか
0879デフォルトの名無しさん
垢版 |
2017/10/08(日) 21:40:08.74ID:BAjE4UNz
ガセかと思ったけどマジなんか
なんで誰も気付かなかったし
0880デフォルトの名無しさん
垢版 |
2017/10/13(金) 23:48:07.78ID:K2R51jFQ
伝票番号に予め配達の営業所までのデータ入っててバーコード読めりゃ営業所までスルーって事かな

>>878
これ勝手に転載してるんだろうがデコードできりゃ問題だよなあ…
0883デフォルトの名無しさん
垢版 |
2017/10/15(日) 20:24:02.01ID:wfF3NLsX
>>881
Publication date : 2017-07

ってなってるんだし規格は完成してるのでは
サイトの更新が遅いだけじゃないの?
0886デフォルトの名無しさん
垢版 |
2017/10/24(火) 20:04:59.52ID:i5hhptUR
何で親子2人ずつの核家族なんだ
地域によっては大家族のサポートも求められるが
組み合わせ違いのグリフ全部作っていくのは天文学的になりそう
0887デフォルトの名無しさん
垢版 |
2017/10/25(水) 18:01:51.97ID:TxCrr8Dz
絵文字じゃなくて絵と解釈してるから混乱する
そういう奴らからのツッコミポイントなくした絵文字作ればいいけど、現状は屈してバリエーション作っちゃうんだよな
0888デフォルトの名無しさん
垢版 |
2017/10/25(水) 18:14:16.54ID:NxsNik2t
頭悪そう
0889デフォルトの名無しさん
垢版 |
2017/10/25(水) 18:14:50.88ID:byKDMVHo
だって例示図形が絵なんだもん

絵ではないと考えてほしかったのなら例示図形をもっと抽象的にするか、
あるいは例示さえせずに (マンガのようなおおげさなウンコ) みたいに言語表現にするべきだったな
0890デフォルトの名無しさん
垢版 |
2017/10/25(水) 18:41:48.33ID:sAsgJLsM
カラーの時点で絵ではないは無理がある
絵ではないなら色は他のテキスト同様にテキストカラー使えよ
0897デフォルトの名無しさん
垢版 |
2017/11/02(木) 22:59:50.35ID:4h9B4mO8
ハンバーガーオーダーセレクタに使えそうなのは
U+1F345 TOMATO
U+1F952 CUCUMBER (PICKLE)
くらい?
最低でもバンズ、ハンバーグ、チーズ、レタスは登録しないとな。
0899デフォルトの名無しさん
垢版 |
2017/11/03(金) 16:09:36.09ID:rOBRj+Zt
一部以外、元々人種・ジェンダーレスの文字だったのに声の大きい人達のせいで見せかけの平等を捻じ込まれてホント嫌悪感しかないわ
0900デフォルトの名無しさん
垢版 |
2017/11/03(金) 20:20:46.51ID:HuwGCmuD
うむ
0902デフォルトの名無しさん
垢版 |
2017/11/04(土) 21:28:22.44ID:NJtYjjHJ
そもそも今までどこにも使われていなかった「文字」を創り始めた時点でもう
0908デフォルトの名無しさん
垢版 |
2017/11/09(木) 09:24:07.69ID:UInw5/Yz
これを貼れと言われた気がするので
ttp://cdn-ak.f.st-hatena.com/images/fotolife/n/noir555/20120325/20120325193503.jpg
0911デフォルトの名無しさん
垢版 |
2017/11/12(日) 01:32:45.14ID:H7C5gFJ5
>>908
浅草だよね?
しかも左から2つ目は墨田タワーか?
そういう位置関係なのか。
0914デフォルトの名無しさん
垢版 |
2017/11/22(水) 16:48:22.55ID:g+mfhWNq
Unicode 10.0 の仕様読んでて思ったんだけど
Core Specification のCJK統合漢字の数字、間違ってない?

20,902+69+6,582+42,711+4,149+222+5,762+7,473+1,014
= 88,884

にしかならないんだけど……。
仕様の合計↓では 88,932 らしいんだが。その差48、何だそれ。


The Unicode® Standard
Version 10.0 – Core Specification
Appendix D
Version History of the Standard

http://www.unicode.org/versions/Unicode10.0.0/appD.pdf#page=6
0925デフォルトの名無しさん
垢版 |
2017/11/29(水) 23:54:56.29ID:tk9E5aVC
なんで最近はハンバーガー押したらメニューが出てくるんだ

メニューから注文するんだから順序が逆じゃないか
0926デフォルトの名無しさん
垢版 |
2017/12/06(水) 08:48:45.84ID:6rXadv4l
ユニコードコンソーシアム、来年に追加予定の新しい絵文字の最新の候補リストを公開
ttps://taisy0.com/2017/12/06/89650.html
0928デフォルトの名無しさん
垢版 |
2017/12/06(水) 14:03:58.50ID:TJabUNNS
昔はUnicodeへの絵文字導入はガラパゴス国のデンワへの後方互換性のため仕方なくやってくれたんだと思ってました

ほんとは自分のおもちゃがほしかったんですね…
0929デフォルトの名無しさん
垢版 |
2017/12/06(水) 17:30:16.47ID:oBvdSzU/
これはひどい
0934デフォルトの名無しさん
垢版 |
2017/12/08(金) 13:40:05.51ID:6WtIjESa
>>931-932
他の物を通すための囮だったかもな
0939デフォルトの名無しさん
垢版 |
2017/12/23(土) 00:06:09.91ID:fYRtLYYp
https://twitter.com/luka_tarot/status/943831841420713984
 仕事関係の方からのメール、時々うんこマークの絵文字(これ→💩)が付いてくるので1年くらいモヤモヤしてやました。
 今日初めてググってみたら、DOCOMOからSOFT BANKにメールを送ると、音符マークがうんこに変換されるようです…‼
 ︎ DOCOMOの方、音符の絵文字にはくれぐれもご注意くださいね
0942デフォルトの名無しさん
垢版 |
2017/12/24(日) 21:03:24.97ID:czMQ2Cnw
文字情報基盤の追加IVD登録と変体仮名の入った10646が出たことをもって
「完了した」ってことかな
0943デフォルトの名無しさん
垢版 |
2017/12/24(日) 22:27:08.09ID:G1OevDef
つちよしって2001年のCJK統合漢字拡張Bから使えるのでは……(U+20BB7)
Jソースが無いから日本の漢字じゃないとかそういう話?
0951デフォルトの名無しさん
垢版 |
2017/12/27(水) 18:58:01.47ID:pTOpkpNU
>>937
人の絵文字+ZWJ+性別

形式にしたのは対応してない環境でも最低限の意味は伝えられるだろうという配慮なのかね?
これ見る限り全く理解されてないのが悲しいが
0953デフォルトの名無しさん
垢版 |
2017/12/28(木) 00:39:28.23ID:ieNYico0
存在自体が見えないZWJじゃなくて
非対応の組み合わせでは+マークを表示するルールの新結合文字作ったほうがよかったんじゃないかね
0954デフォルトの名無しさん
垢版 |
2017/12/30(土) 18:56:44.40ID:Ugth+Qnu
漢字6万字て、馬鹿か。
取るに足りない些細な違いをもって同じ文字と認めない。
最う駄目だ。
0955デフォルトの名無しさん
垢版 |
2017/12/30(土) 23:54:24.56ID:8RkbD7fK
>945
まあ、異字体を丹念に拾ってくれるのはありがたいけれど、
漢文をTeXで扱う場合に、Adobe Japan 1-5(20313字)にない
文字が時々出てくる(例えば『列子』など)時など、IPAMJに
その文字があると、助かる。
出来れば、中国の古典籍に出てくる文字を積極的に
IPAMJに収録するようにしてもらいたいとおもっている。

もっとも、戸籍用の文字を収録することは、行政上から
いえば、最優先事項であることは理解できるのだが。
0957デフォルトの名無しさん
垢版 |
2017/12/31(日) 10:27:32.66ID:hZnZn3Kf
>>954
>取るに足りない些細な違いをもって同じ文字と認めない

その手の議論はCJK統合漢字の時に散々やったんじゃないの?
0959デフォルトの名無しさん
垢版 |
2017/12/31(日) 11:54:37.82ID:BxTIUPKK
>956
「超漢字」というのは東大で開発したGTフォントなのですが、
ただ、いかんせん。フォントが綺麗でないので、
例えば本文を「ヒラギノ」や「小塚明朝」で組んだ時に
GTフォントを入れると、かなり違和感を感じるので、
現在は、Adobe Japan 1-5やIPAMJにない字は、
Adobe Illustratorで作字している
0960デフォルトの名無しさん
垢版 |
2018/01/01(月) 13:59:19.71ID:Yzi7nKjn
テキストエンコードに詳しい方、教えてください


下記リンクは日本語サイトの日本語テキストファイルですが
「ファイル名」が文字化けして文字コードが不明です(ファイルの本文は Shift_JIS でした)
「正しいファイル名」および「ファイル名の言語」(外国語?)が分かれば教えてください

また言語不明のファイル名を簡単に判別する方法があれば教えてください

http://www.monzen.org/doc/fonts/free/all/%e3%81%a6%e3%81%82%e3%81%a8%e3%82%8b%ef%bc%91%ef%bc%96/%e9-%e9%e1%e9%e3%e9%da%e9P%e9U.TTF%e9+%e9-%e9%f3%e9-.txt
0961デフォルトの名無しさん
垢版 |
2018/01/01(月) 23:24:57.94ID:x9zbFP4w
明けましておめでとうございます
2018年の文字コード業界はどうなるやら(去年の使い回し)
0963デフォルトの名無しさん
垢版 |
2018/01/02(火) 12:36:54.34ID:Y/4ObyK1
http://www.monzen.org/doc/fonts/free/all/てあとる16/
ここの中身見たけどファイルが5個あって

1)てあとる16/てあとる16.TTFについて.txt
2)てあとる16/てあとる16.TTF
3)てあとる16/(化けてる).TTF(化けてる).txt
4)てあとる16/(化けてる)16.TTF
5)てあとる16/Theatres16.zip

たぶん (3) をダウンロードしたんだと思うけど
zip の中をみると (1) と (2) しかないから
サイズも同じだし (1)-(3) と (2)-(4) は同じ名前(文字列)なんだろうね
0964デフォルトの名無しさん
垢版 |
2018/01/02(火) 12:49:17.66ID:Y/4ObyK1
コード見ると

てあとる: e92de9e1e9e3e9da
16: e950e955
について: e92be92de9f3e92d

なんだろうけど
e92d が「て」だけじゃなくて「つ」と思われる部分にも使われてるのが謎
0966デフォルトの名無しさん
垢版 |
2018/01/02(火) 22:57:59.20ID:5gV1mnpW
「16」の部分がE950 E955なのはShift_JISから来たのかなと思うけど(Shift_JISでは8250 8255)
「てあとる」「について」は謎だな
0967デフォルトの名無しさん
垢版 |
2018/01/03(水) 04:10:39.66ID:v5sFvWN4
>>962-966
レスありがとうございます>>960です

「てあとる16」というフリーフォントをググってこのURLに辿り着いたのですが
Firefoxのエンコード設定をいくら弄っても正規ファイル名がわからなかったので質問させていただきました

わざわざファイル名を変えてアップしてるということは何らかの意図があると思うのですが
中国語や韓国語でもなさそうだしUnicodeでも化けるので・・・ MacとWindowsを行き来して化けたとか?

管理者さんに聞くのが近道だと思いますがディレクトリ勝手に掘ったとか怒られても嫌なので放置しています
0968デフォルトの名無しさん
垢版 |
2018/01/03(水) 12:59:16.54ID:j114ZuXB
(>>967の続き)
あと素人臭い質問ですいませんが、下記テキストファイルをWindows環境で表示する方法はありますか?
同ディレクトリにあるotf(お試しフォント)はDLできるのですがテキストファイル3個は表示もDLもできませんでした

http://www.monzen.org/doc/fonts/free.next/%e3%83%a2%e3%83%88%e3%83%a4%e3%81%8a%e8%a9%a6%e3%81%97/UD%e3%83%a2%e3%83%88%e3%83%a4%e6%98%8e%e6%9c%9d2B/ntnum2bmst/%e6%96%87%e5%ad%97%e7%a8%ae%e4%b8%80%e8%a6%a7.txt
0970デフォルトの名無しさん
垢版 |
2018/01/04(木) 01:35:20.16ID:1mKOov/G
>>968
403 Forbiddenが返ってきてるから、おそらくパーミッションの問題でWebサーバが
そのファイルを読み出せない
0972デフォルトの名無しさん
垢版 |
2018/01/04(木) 20:41:42.26ID:LRBrKk4Y
>>967
元はShift_JISで書かれたサイトっぽいけど「webサーバー側」の文字コード設定が間違ってて
HTMLとしてすでに正しくない文字コードというかバイト列が出力されてしまってる感じで
さらにfirefoxが文字コード検出を間違ったまま表示してる感じがする
ちなみに文字化けしたままでもfirefoxでマウスオーバーしたときに左下に出て来る日本語はたまに正常たったりする
文字化けにも色々あるけど文字通り壊れたバイト列だともうどうしようもない
0973デフォルトの名無しさん
垢版 |
2018/01/04(木) 21:05:29.96ID:LRBrKk4Y
>>968
サーバー側の設定が間違ってると間違った文字コードでリクエストしてファイルは存在してても
違うバイト列だからファイルシステム上に見つからないとかいう状態になってそうなので
あとはだめもとでHTML側のURLを使わずに
判ってる方のファイル名
www.monzen.org/doc/fonts/free.next/モトヤお試し/UDモトヤ明朝2B/ntnum2bmst/文字種一覧.txt
を自分でURLエンコードしてリクエストしてみるとか
0975デフォルトの名無しさん
垢版 |
2018/01/04(木) 23:05:06.84ID:7OOzLizu
>>972-974
ありがとうございます
該当のテキストがどうしても読みたいというよりも
<何故こういう現象が起きてるのか?>のほうに興味があって質問させていただきました
文字コードの世界って本当に奥が深いですね

文字フォントについても色々疑問があるのですが、それはフォントスレで質問するべきですね
(PCにインストールしていいフォント数の上限とか)
0977デフォルトの名無しさん
垢版 |
2018/01/05(金) 17:51:46.56ID:GkCjRoy7
無理やり読ませるとそれなりの割合の人間に急性ショック症状を起こすスレでもある・・・
0979デフォルトの名無しさん
垢版 |
2018/01/08(月) 13:20:24.34ID:g3wGVkXu
40cmくらいのウンコード出た
長過ぎて一回で流れなかった
5回目くらいでやっと視界から消えた
0980デフォルトの名無しさん
垢版 |
2018/01/09(火) 07:25:31.13ID:4jYqaTLN
ウンコ駆動ですね判ります
0982デフォルトの名無しさん
垢版 |
2018/01/11(木) 01:29:58.58ID:8ozacBxV
【しつもん@A】

@Windowsで同一フォルダ内に全く同じファイル名+拡張子があって不審に思い
ファイル名をメモ帳にコピペしても瓜二つ
でもWordにコピペすると片方は「ジ」や「ペ」の後ろに空白文字が出てくる

Aニコニコ動画をDLしてるとたまに「グ」が「ク_ 」に文字化けする

@Aの発生原因は分りますか? (どれもネットから落としたファイルです)
0983デフォルトの名無しさん
垢版 |
2018/01/11(木) 01:41:04.05ID:0E6TKJI8
Wordを持ってるならその空白文字の後ろでAlt+Xしてみ
そしたら文字コードに変換されるから何がついてるか分かる
0985デフォルトの名無しさん
垢版 |
2018/01/11(木) 12:49:11.03ID:F0gXla1d
2は、ダウンロードするソフトがファイル名に使えなさそうな文字をアンダースコアに変えてるのでは
0986デフォルトの名無しさん
垢版 |
2018/01/11(木) 16:02:48.08ID:rE/gsUWL
合成済み文字と結合文字列の違いは
Windowsとmacでデータのやりとりをしていると稀によくある
0987デフォルトの名無しさん
垢版 |
2018/01/11(木) 17:06:01.77ID:WekjUxUo
>>985-986 ありがトン

A ニコニコ動画の無料アニメ2本 上の「グルグル」は文字化けしないが、下のは化ける

http://www.nico   video.jp/watch/1499326505
魔法陣グルグル PV

http://www.nico   video.jp/watch/1500538647
魔法陣ク?ルク?ル 第1話「旅立ち!ジミナ村!」

下の動画タイトルをWordにコピペ&Alt+Xすると「ク3099」なので、上とは違った文字コードで書かれてる模様
ブラウザ上では見分けがつかないが、DLすると「ク_ 」=「ク005F」に化ける
ニコ動はブラウザで見ることを前提にしてるのでクレームをつけるわけにもいかないが
バラバラの文字コードで書かれるとモヤッとする
0988デフォルトの名無しさん
垢版 |
2018/01/13(土) 18:28:46.68
>>987
「魔法陣グルグル 」だけを抜き出してみると

魔法陣グルグル PV
¥u9b54¥u6cd5¥u9663¥u30b0¥u30eb¥u30b0¥u30eb¥u3000
魔法陣グルグル 第1話「旅立ち!ジミナ村!」
¥u9b54¥u6cd5¥u9663¥u30af¥u3099¥u30eb¥u30af¥u3099¥u30eb¥u3000

下の方は半角カナ(グルグル)から変換したとかかなあ

ウェブブラウザでは一見区別が付かないのも困りものだ
0992デフォルトの名無しさん
垢版 |
2018/01/16(火) 16:24:03.09ID:gClSSJeQ
Combining Character Sequence
公式日本語訳の「結合文字の並び」は何だか使いにくいし
0994デフォルトの名無しさん
垢版 |
2018/01/16(火) 21:58:19.78
「結合文字列」って、「合州国」みたいなもんか
0995デフォルトの名無しさん
垢版 |
2018/01/17(水) 15:56:04.49ID:9Sws3XK1
合衆国の誤字だっけ
0997デフォルトの名無しさん
垢版 |
2018/01/21(日) 14:15:27.16ID:zFm0SEQ6
ttp://ufcpp.net/blog/2018/1/getunicodecategory/

ASCII 圏の人、ほんとに Unicode 追加面を知らない
・「こんなのほっといてもすぐに追加されるだろう」とか甘い
・たぶん、日本人か中国人が言い出さないと進まない
10011001
垢版 |
Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 830日 6時間 15分 17秒
10021002
垢版 |
Over 1000Thread
5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。


───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。

▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/

▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php
レス数が1000を超えています。これ以上書き込みはできません。

ニューススポーツなんでも実況