C++相談室 part166

2025/12/13(土) 08:54:58.15

LF　<--> CR LF 変換はI/Oの段階で行われるものだという印象
証拠に、"\r\n" をテキストモードでファイルに書くと "\r\r\n" になり、
それをテキストモードで読むと "\r\n" に戻るのは万国共通のふるまいのはず（適当
（バイナリモードだともちろん文字列リテラルとファイルのデータ両方 "\r\n"。
すなわちC/C++言語における文字列リテラルの改行は古来より "\n" の1文字……

なので
>従来はそうだったはずだけど C++23 からは Unicode (UTF-8) のコードポイントの並びで規定されていて、 CRLF が単一の改行に置き換えられる規則が明記されてる。
こそ
>（ソースコード上の生文字リテラル内での行の折り返しを）「改行が入力された場合、改行の制御文字 '\n' に変換される」
ことの根拠になっているのでは……

で、
>Unicode 系以外の文字コードから処理系定義の規則で Unicode に適当にマッピングするようなのも認めているので
というのは "\r\n" <--> "\n" の変換（文字数が違う）を正当化しないと思う

2025/12/13(土) 09:19:18.23

>>763
のは次のような特殊なケースでのみ問題になるだけなのではないかという希ガス
#define TEXT_DEFINITION R"(begin\
a,\
b,\
c\
end)"
std::string text = TEXT_DEFINITION; // textの内容が "(begin\na\nb\nc\nend)" になることを気体

初期段階、と書かれるとようわからんが、行を結合するのはプリプロセッサが行うだけのはず……
C/C++は文脈自由言語でありかつ改行文字はトークンでないから、パーサー部分が行を結合する必然性が無い

2025/12/13(土) 10:11:52.86

プラットフォームごとの改行コードに合わせた変換がI/Oの段階で行われるのはそうだろうけど（たとえばPythonは変換仕様の細かい指定がprint関数でできるし、他の言語でも同様の機能があることが多いのではないかと思う。なので、\r\nと\r\r\nの変換が万国共通ということは別にないはず）、規格で規定されているのはソースコードをコンパイルする前処理としての改行コードの正規化（？）の話であって、別の話なのではないかと思うが。

2025/12/13(土) 10:26:05.41

>>772
>\r\nと\r\r\nの変換が万国共通ということは別にないはず
>>770 の前段のは、
C/C++のバイナリモードとテキストモードのI/Oの挙動がC/C++言語の文字列リテラル内の改行が "\n" 一文字であることを含意しているという主旨、
なので、あくまでC/C++のI/Oの挙動において\r\nと\r\r\nの変換が万国共通ならおk、

>ソースコードをコンパイルする前処理としての改行コードの正規化（？）の話
Windowsのメモ帳で
R"(begin
a)"
と書いたらソースファイル上は beginとaの間に CR LF が入るが文字列リテラルの期待値は "begin\na" ですよ（CR LF → LF 1文字に変換）、という話のはず……

2025/12/13(土) 10:53:09.54

①エスケープシーケンス \n と ②そのデコード結果であるLF、③実際の改行コード（プラットフォームにより、LF、CRLF、CRのいずれか）の区別を意識的にしないと議論が混乱すると思う。
cpprefjpの>>761 の説明に違和感があるのは、raw文字列リテラル内ではエスケープシーケンスのデコード処理はされないのに、エスケープシーケンス \n で説明している点にもあると思う。773も同様に①と②を同義語として使っているように見えるが、そこは本来は区別すべきではないか。

2025/12/13(土) 10:59:50.95

>>773の最後の例でいえば、raw文字列リテラルの仕様として、改行コードがLF（エスケープシーケンス \n ではない）に変換されるという記述は特にないと思う。

2025/12/13(土) 11:05:17.48

実際には、最初にソースコード上の改行コードが一律にLFに変換され、トークン分割の段階でraw文字列リテラル中の改行コードと判明した場合には（>>763）、それに応じた処理をするんだろうが、LFからさらに変換したりはしないというのはありそうなことではある。
だけど、それは改行コードの正規化（？）に付随してそういう処理になっていることが多いというだけのことであって、raw文字列リテラルの仕様の一部としてそうすべきと規定されているわけではないよねってことだと思うんだが。

2025/12/13(土) 11:07:53.08

NGワード規制回避のため分割レスになって申し訳ない。何がNGワードだったんどろう……、

2025/12/13(土) 18:42:47.60

>>775
↓これがどのプラットフォームのエディタで書いてビルドしてもequality 1 2がtrueになるのなら
ソースコードの改行（CR LF or LF）が「"\n" に変換されている」としか言いようがないような……
std::string text1 = R"(begin
a,
b,
c
end)"; // "\n" を含まない文字列定義
std::string text2 = "begin\na,\nb,\nc\nend"; // "\n" を含む文字列定義
std::cout << std::boolalpha << "equality 1 2: " << (text1 == text2) << std::endl;

んまー説明のための新しい改行表現を定義したいなら止めはしませぬが……

2025/12/13(土) 18:53:55.47

それはそうとしてRAW文字列とプリプロセッサとの関係で試したら（漏れにとって）奇怪なことがわかりた……
↓次のコードがビルドが通ってequality 2 5 がtrueになる……
// プリプロセッサを通す場合(3)
// マクロ定義が複数行に渡る場合、本来は \\ で行継続せねばならないが、RAW stringの行継続は特別視
#define TEXT_DEFINITION R"(begin
a,
b,
c
end)"
std::string text5 = TEXT_DEFINITION;
std::cout << text5 << std::endl;
std::cout << std::boolalpha << "equality 2 5: " << (text2 == text5) << std::endl;

これはさすがにプリプロセスの段階でプリプロセッサが R"(...)" を認識しないとできない芸当……
（プリプロセッサの普通の挙動ならTEXT_DEFINITION の定義内容は R"(begin（ここで日記は終わってゐる
　にならねばおかしいはず
ソ～ス: https://ideone.com/AJcmZT

2025/12/13(土) 21:05:36.09

実行ファイルの内部でどういうコードが埋め込まれるとか興味ないのかな
>>777は自分の書き込みと他を比較したりしないのかな