シェルスクリプト総合その33

**デフォルトの名無しさん** · 2020/03/23(月) 01:12:30.31

シェルスクリプトに関する総合スレッドです。

全般
・荒しは無視しましょう。
・丁寧な姿勢を心掛けましょう。
・ネチケット（死語）を意識しましょう。
・「○○（他の言語）でいいやん」は禁止。他のスレに行ってください。

シェルスクリプト総合その32
https://mevius.5ch.net/test/read.cgi/tech/1571929725/

**デフォルトの名無しさん** · 2020/07/19(日) 08:53:42.63

お前いつも壁と話してんな

**デフォルトの名無しさん** · 2020/07/19(日) 10:23:03.44

壁だと思ってるのはお前だけで、実は人間なんだぜ（ホラー風）

**デフォルトの名無しさん** · 2020/07/19(日) 11:15:59.84

ぬりかべ「かべっ！？」

**デフォルトの名無しさん** · 2020/07/27(月) 19:01:06.79

manコマンドはPOSIXに取り入れられそうなのに
その表示に関わるroffコマンドは影も形もないって、
なんつーか意味あんのかそれって思う。

**デフォルトの名無しさん** · 2020/07/27(月) 20:34:03.79

>>603
roff 使わなくても cat1 とか cat8 に成形済みテキスト置いておくだけで man
は動くんだから、別に roff なくても良いといえばいいとか、そんな理屈なのかも。

**デフォルトの名無しさん** · 2020/07/27(月) 20:48:14.37

manをPOSIXに取り入れるぐらいなら
HTMLビューワーをPOSIXに取り入れたほうが良い
JavaScriptとCSSに対応させる必要はないからさ

**デフォルトの名無しさん** · 2020/07/27(月) 20:50:03.70

curlをPOSIXに入れればいいのに
フル機能じゃなくていいけどREST API叩けるぐらい

**デフォルトの名無しさん** · 2020/07/27(月) 21:12:03.12

>>603
おお、するどい。
でもmanが入ってないというのはどう言う意味? POSIXとSUSの意味の違いにこだわる?

で実際manの記述を見ると文章の整形とかそれをどう作るとかは書いてないので、
そういうレベルのものは規定しないという態度なのかも。

あと事実上GNU roffが標準だと思うが、さすがにそれを規格には入れられないのかも。
かといって今更大昔のroffに制限するのもなあと。

しかし最近GNUで検索するとKingの方がヒットしやすくてうざいw

**デフォルトの名無しさん** · 2020/07/27(月) 21:16:04.45

というか、King Gnuと言ったらRMSしかありえないだろw

**デフォルトの名無しさん** · 2020/07/28(火) 08:42:48.22

こんなのか?
https://www.e-hon.ne.jp/bec/SA/Detail?refShinCode=0100000000000030681001&;Action_id=121&Sza_id=F3

まだ役に立ってるよ。俺が持ってるのは 20.3 だけど。

**デフォルトの名無しさん** · 2020/07/28(火) 13:13:59.11

質問。
次のような行からいずれかのvalueをきれいに削除するにはどうすれば？
name=value0,value1,value2,value3

たとえば次のコマンドだと、value1を削除できるものの、先頭か末尾か連続かのカンマが残ってしまう。。。
sed 's/^(name=.*)value1(.*)$/¥1¥2/'

残ったカンマを後で処理したらいいんだけど、そもそも一発でうまくやることができるんでは？という気がどうしても。

**デフォルトの名無しさん** · 2020/07/28(火) 13:23:54.46

^(name=.*)�bvalue1,?(.*)$
こうかな

**デフォルトの名無しさん** · 2020/07/28(火) 13:24:17.04

文字化けてるとこは円記号な

**デフォルトの名無しさん** · 2020/07/28(火) 13:53:56.25

King Gnu?
どっかで聞いたことあるようなないような▪▪▪

**デフォルトの名無しさん** · 2020/07/28(火) 14:07:36.32

>>611
value3の場合、末尾にカンマが残るよね？
また、value0なら先頭に残る。

どれでも一発できれいに削除できないかな？

**デフォルトの名無しさん** · 2020/07/28(火) 14:08:46.03

残らないが？

**デフォルトの名無しさん** · 2020/07/28(火) 14:25:35.27

残るが。
value3直前のカンマが¥1に含まれるので。

**デフォルトの名無しさん** · 2020/07/28(火) 23:58:59.24

>>610
>name=value0,value1,value2,value3

頭を柔らかくして、
最初に、この末尾に、カンマを追加すれば、処理しやすい形式になる

name=value0,value1,value2,value3,

**デフォルトの名無しさん** · 2020/07/29(水) 00:10:05.86

sed縛りなの？
後方参照する必要ないんじゃない？
value[0-2] については冗長だけど、以下の形式なら全部同じようにできるかと。
'?'の正規表現って、sedだとGNU sed とかだとつかえるのかな？
'?'はウチでは使えない。

echo 'name=value0,value1,value2,value3' | sed -e 's/value0,*//' -e 's/,$//'
echo 'name=value0,value1,value2,value3' | sed -e 's/value1,*//' -e 's/,$//'
echo 'name=value0,value1,value2,value3' | sed -e 's/value2,*//' -e 's/,$//'
echo 'name=value0,value1,value2,value3' | sed -e 's/value3,*//' -e 's/,$//'

**デフォルトの名無しさん** · 2020/07/29(水) 03:25:12.86

>>617
Perlとかならそうするが、sedだとなかなか？
sedはあんまり使わないので、そうしたくてもよくわからない。。。

>>618
sed縛りではないけど、Linux最小インストールでも対応したいので、sedくらいしか？
ほかに使えるならそれも可。

後方参照してるのは、「name=」で始まる行だけに限定したいから。
それ以外の行はそのままで。

「?」が使えない正規表現があるの？
POSIXに含まれてなかったっけ？

ちなみに現在はこうしてたっけかな？
細かいところはちょっと違うかも。
sed -r 's/^(name=.*)value1,?(.*)$/¥1¥2/;s/^(name=.*),+$/¥1/' -i file.txt

なんかくどくて、もっとさっぱり書けるやろと。。。

**デフォルトの名無しさん** · 2020/07/29(水) 05:18:27.85

Ruby で作った

text = <<"EOT"
a
name=value0,value1,value2,value3
x
EOT

word = "value2,"

text.each_line do | line | # 1行ずつ処理する
# 先頭が、name= 以外は処理しない
next unless line.start_with? "name="

line.chomp! # 末尾の改行を削除する
line += "," # 処理しやすいように一旦、末尾にカンマを付ける

line.slice! word # 取り除く
line.slice! -1 # 末尾のカンマを取り除く

puts line #=> name=value0,value1,value3
end

**デフォルトの名無しさん** · 2020/07/29(水) 06:28:49.20

sedの正規表現で最短一致は使えないって地味に罠だよな
[^]で工夫すれば行けるらしいが

**デフォルトの名無しさん** · 2020/07/29(水) 07:17:15.52

for((aa=-1;aa<4;aa++)); do echo name=value0,value1,value2,value3 |sed -e"/^name=/{s/$/,/; s/value${aa},//; s/,$//;}"; done

**618** · 2020/07/29(水) 11:42:17.47

>>622
完全に同意。個人的には {} 使わないで -e で並べたい派だけど。
*を使うより厳密に置換できてよいと思う。

619には以下の書き方のほうが分かりやすそう。
sed -e '/^name=/{s/$/,/; s/value0,//; s/,$//;}'

>>619
sedの正規表現では '?' 使えないはず。
GNU sed でもオプション使わないと通らないのが確認できた。
できれば -E を使ってほしいかな。個人的には。
-E, -r, --regexp-extended
use extended regular expressions in the script
(for portability use POSIX -E).

**デフォルトの名無しさん** · 2020/07/29(水) 11:58:07.49

そうやって、外部コマンドをあれこれ駆使して
どうにかして簡単に書ける方法はないか？に
無駄な時間使ってるのを見るとアホやなぁって思う
一般的なやり方でできないなら諦めろよ
そのコマンドを使うのが間違ってるんだ

**デフォルトの名無しさん** · 2020/07/29(水) 12:32:30.11

>>622
なるほど。
sコマンドで全行置換することしか頭になかった。。。
パターンマッチで行を特定してから、複数の置換を{}でまとめて行えばいいのか。

なんかsedの要領がわかった気がするぞ。
どうもありがとう。

>>620
Rubyなら、split()とjoin()を使ったらもっとさっぱりにできそう。

**デフォルトの名無しさん** · 2020/07/29(水) 12:44:55.15

>>623
いや、>>622でちゃんとわかったで？
# ちょっとかんがえたけど。

正規表現の「?」は確認するとたしかにダメだった。
-Eは、「¥bvalue」としたい都合でつけてたから、あんまり意識してなかった。
と思ったら、こっちは-Eがなくてもよかったのか。
なんかもうメチャクチャだなー。ｗ

**デフォルトの名無しさん** · 2020/07/29(水) 13:19:38.86

データがカンマを含む場合はどうしますか？

name1=v0,"v,,1",v2,,,vvv,unko,
name2=,sss,"hdj,du,n",,ss,,,,kkkk

**デフォルトの名無しさん** · 2020/07/29(水) 15:37:47.77

特定の行で区切った塊ごとで処理したいんだけどいい方法ない？
例えばこんなのだったら====で区切って

abc
def
==== 1
ghi
jkl
==== 2
mno
pqr

abc～def、ghi～jkl、mno～pqrという3つの塊をそれぞれ処理したい。
それと ghi～jklという塊を処理している時は1ですよ。という数字も知りたい
（最初の塊の時は数字なし）

**デフォルトの名無しさん** · 2020/07/30(木) 06:16:08.96

>>628
cat |sed -ne "/^===/! {H;}; $ b ll; /^=/ {:ll; s/=//g; x; s/\n/ /g; p;}" << EOL
abc
def
==== 1
ghi
jkl
==== 2
mno
pqr
EOL
abc def
1 ghi jkl
2 mno pqr

**デフォルトの名無しさん** · 2020/07/30(木) 06:42:42.05

>>629
条件を忘れましたが、画面に出力するのではなく
任意の処理をしたいのです。

つまり

foo() {
# $1 = 番号
# $2 = 塊
}

のようなことがしたいのです。

**デフォルトの名無しさん** · 2020/07/30(木) 06:43:43.55

あと塊から改行を取り除いてはいけません

**デフォルトの名無しさん** · 2020/07/30(木) 14:54:43.85

$!をリセットする方法はないですかね？
空とかunsetとか0とか

**デフォルトの名無しさん** · 2020/07/30(木) 15:15:25.11

Perl 使うと楽だが、シェルスクリプトで、か・・・

**デフォルトの名無しさん** · 2020/07/31(金) 00:34:30.45

Ruby なら、

def f( num, line )
puts num, line
end

# num は、inject の蓄積変数。0 は初期値
File.foreach( "input.txt" ).inject( 0 ) do |num, line|
if line.start_with? "==== " # 先頭が、これなら
line.chomp! # 末尾の改行を削除する
num = line[ 5..-1 ].to_i # 数字の部分を取り出して、整数にする
next num
end

f( num, line )
num
end

出力
0
abc
0
def
1
ghi
1
jkl
2
mno
2
pqr

**デフォルトの名無しさん** · 2020/07/31(金) 01:26:11.97

>>630
Bashなら、プロセス置換(process substitution)でできるのでは。

<(echo;最初のデリミタ行までを抽出するコマンドライン)
<(echo 1;最初から次のデリミタ行までを抽出するコマンドライン)
<(echo 2;最後のデリミタ行からを抽出するコマンドライン)

としたら、先頭行が番号、それ以降がテキスト行として読み込める。

個人的には、さすがここまでのレベルならPerlとかでやったほうが。

**デフォルトの名無しさん** · 2020/07/31(金) 19:26:43.51

bashの#!でのオプションについて質問。

先頭行を次のようにすると、「invalid option name」エラーになります。
#!/usr/bin/bash -o pipefail
...

しかし、コマンドラインに同じように書くとエラーになりません。
/usr/bin/bash -o pipefail -c '...'

どうして？
-eならどっちも問題ないので、#!行のオプションの解釈になにか秘密があるんだろうけど。

**デフォルトの名無しさん** · 2020/07/31(金) 20:01:20.64

>>636
MacOSやFreeBSDだと上手くいく。
原因はLinuxのexecl()関数が
「/usr/bin/bash」と「-o pipefail」という
二つの引数を実行しているせい。
とうぜん「o pipefail」というオプションはないので，怒られる。

**デフォルトの名無しさん** · 2020/07/31(金) 20:03:04.24

さらに言うと，
シバンはPOSIXが「実装ごとに挙動がバラバラなんで俺はこの動作を規定しません」
って公言するくらい，各種OSごとに扱われかたが違う。

今調べられないけど，古いAIXとかだと
「!/usr/bin/bash -o pipefail」とかいうコマンドを探しにいってエラー吐いてた記憶がある。

**デフォルトの名無しさん** · 2020/07/31(金) 20:39:05.80

>>636
/usr/bin/bash -o pipefail ではなく
/usr/bin/bash "-o pipefail" を実行している

まあ素直に
#!/bin/bash
set -o pipefail
って書けってことだな

**デフォルトの名無しさん** · 2020/07/31(金) 21:40:13.69

もう書いたんだが…

**デフォルトの名無しさん** · 2020/07/31(金) 21:44:42.11

>>637
>>639
どうもありがとう。
要するにLinuxの不具合みたいなもんだけど、しかし「仕様」ってことか。。。

AIXかは知らないけど、シバンのトラブルはたしかに昔、Perlのドキュメントかなにかで見た気もする。
今でもあるとは。

ちなみに最終的にはこうしといた。
#!/usr/bin/bash -euC
set -o pipefail
...

**デフォルトの名無しさん** · 2020/07/31(金) 21:56:20.95

/usr/bin/bashにbashがあるとは限らない
というか普通無い

**デフォルトの名無しさん** · 2020/07/31(金) 22:30:39.13

>>642
Bashの位置に依存しない為には
#!/usr/bin/env bash
↑こうする。

しかし，envが/usr/bin/envにあるかどうかも分からない（以後無限ループ）

**デフォルトの名無しさん** · 2020/07/31(金) 22:35:57.38

普通は、/bin/bash
じゃないの？

**デフォルトの名無しさん** · 2020/07/31(金) 22:55:43.76

>>642
ないのは見たことがない。
たとえばどんな環境？

>>644
HFSかRHELのドキュメントかなにかで、/binはシングルユーザー用、/usr/binはマルチユーザー用となってたような。
さらに環境によっては/bin→/usr/binのシンボリックリンクでさえあるようなので、わりきって区別せずに/usr/binだけを使うことに決めた。

**デフォルトの名無しさん** · 2020/07/31(金) 23:03:07.55

$ lsb_release -d
Description: Ubuntu 20.04.1 LTS

$ ls -1 /bin/bash
/bin/bash

$ ls -1 /usr/bin/bash
ls: cannot access '/usr/bin/bash': No such file or directory

**デフォルトの名無しさん** · 2020/07/31(金) 23:31:35.93

>>645
Linuxの場合/usr/binにbashがあるのは/bin -> /usr/binになっている環境ぐらい。それ以外はほぼ間違いなく/binにある。元々シングルユーザーモード用の/binになかったら、シングルユーザーモードでシェルが使えないでしょ。
最近は/binと/usr/binを統合する動きが進んでいるから将来はどっちでも良くなるかもしれないし、あるいは/binがなくなるかもしれないけど、今はまだ従来の環境も普通にあるから/bin/bashがいい。その為にシムリンクを張っているわけなので。
UbuntuやDebianは、今インストールすると統合されるけど、従来の環境からアップデートした場合は統合されない。
あとGentooとかは今クリーンインストールしても統合されない。

**デフォルトの名無しさん** · 2020/08/01(土) 01:21:21.09

>>647
シングルユーザー環境はまったく想定外なので。。。
ファイルパスをあわせても、実際の具体的な環境は把握できてないし、どうせ動作確認もしないから、きっぱりわりきることにしたのだ。

binの統合の話は、RHEL8のドキュメントで見た気がするけど、だったらもうとっととのっとこう、と思ったのもある。
うちのメインはCentOSだし、そうなってない環境を使うことになったら自分でシンボリックリンクを追加したらええんやろ、ということで。

**デフォルトの名無しさん** · 2020/08/01(土) 08:14:01.78

又聞きで悪いが，Oracleかなにかだと，/usr/bin/にはGNU系の製品が入ってなかったとか。
/export/以下にあるとかなんとか。

**デフォルトの名無しさん** · 2020/08/01(土) 08:30:02.46

/opt/bin とかに入ってるのもあったなぁ

**649** · 2020/08/01(土) 10:05:25.94

>>650
あー。これで思い出した。
/opt/bin/だわ。
/export/は利用者のホームディレクトリとかがある所だわ。

Bashの場所とは関係ない話になるけど，
昔$HOME変数とか使わずに/home/***以下にあるやろって決め打ちしてたら
Solarisではまさかの/export/home/***にあるっていう罠に引っ掛かったw

**デフォルトの名無しさん** · 2020/08/01(土) 13:49:06.35

何十年経ってもディレクトリが分類できる未来はないんやな

**デフォルトの名無しさん** · 2020/08/01(土) 17:25:34.94

>>652
OS作る時にOSの仕様として組み込んでしまうぐらいしか方法無いと思う。ちょっとでも自由があると必ずそこから崩れる。

**デフォルトの名無しさん** · 2020/08/01(土) 23:28:16.58

10MBぐらいのテキストファイルでさ
指定したバイト目から～バイトの範囲を取得っていうのを
やるととしたらどういう方法が一番高速だろうか？
bashismなし。外部コマンドは呼び出してもいいけど遅いな

**デフォルトの名無しさん** · 2020/08/02(日) 00:54:32.67

Perlでワンライナーが速そう。ｗ

**デフォルトの名無しさん** · 2020/08/02(日) 00:55:21.79

でもPerlを呼び出すコストがかかるでしょ？

**デフォルトの名無しさん** · 2020/08/02(日) 03:03:58.88

じゃあ、全文をPerlに書き直そう。ｗ
いっそCで？

マジな話、ファイルを直に開いてseekできるPerlならトータル黒字なんでは。
知らんけど。

**デフォルトの名無しさん** · 2020/08/02(日) 08:34:06.01

dd, od, head/tail

コンパイル済みのCのコードのほうが速いやろ

**デフォルトの名無しさん** · 2020/08/02(日) 09:26:03.25

>>654
dd一択。

**デフォルトの名無しさん** · 2020/08/02(日) 12:16:22.41

そもそも設定が/etc/に雑に放り込まれてる時点でな
個人設定だって~/直下だったり~/.dirだったり~/.config/.dirだったりてんでバラバラだし

**デフォルトの名無しさん** · 2020/08/02(日) 14:14:46.24

>>658
tail|headは遅いやろ。
とくに大ファイルの前の方を抽出する場合には。
tailは後の不要な部分も全部読んでまうので、ファイルが大きいとかなり遅い。

**デフォルトの名無しさん** · 2020/08/02(日) 14:18:23.50

いや、head $(())|tailとすればマシなのか。
元コメのPerl起動時間さえ気にする用途にはあわんかもだけど。

**デフォルトの名無しさん** · 2020/08/02(日) 15:04:27.21

>>662
たぶんPerlの呼出しコストにいちゃもん付けてる>>656は
>>654とは別人。

あとheadやtailだと「バイト」単位では切出せない。

ところで head $(()) っていう技巧おもしろいね。初見だわ

**デフォルトの名無しさん** · 2020/08/02(日) 15:44:30.48

>>663
別人かもだけど、そういう気持ちは元コメから書いてあったから。。。

head/tailは、--bytesオプションがあるやろ？

算術式展開は、でもBash限定なんだっけ？

ただ、いずれにしてもddにしろheadにしろtailにしろ、スキップが読み捨てなのか直シークなのかで速度が違いそう？

**デフォルトの名無しさん** · 2020/08/02(日) 19:23:27.16

>>664
算術展開はPOSIXで定義されてるから
最近のPOSIX準拠を謳うシェルなら必ず使える。

https://pubs.opengroup.org/onlinepubs/9699919799/utilities/V3_chap02.html#tag_18_06_04

**デフォルトの名無しさん** · 2020/08/02(日) 19:30:06.31

>>661
ファイルの大きさを見て一番後ろを見に行くから遅いはずがない

**デフォルトの名無しさん** · 2020/08/02(日) 19:39:48.99

$ ls -1sh input.dat
10M input.dat
$ dd if=input.dat of=output.dat bs=1M skip=1 count=1
$ ls -1sh output.dat
1.0M output.dat

**デフォルトの名無しさん** · 2020/08/02(日) 20:02:20.24

>>665
$(())は初見やったんちゃうの？ｗ
Bash限定のマイナー機能やったか！と思ったのに。。。

# Bashしか使わんから、互換性は意識してないからなー。

**デフォルトの名無しさん** · 2020/08/02(日) 20:07:58.65

>>666
書いてることはちゃんと理解した？
パイプ前のtailが、パイプ後のheadで捨てられるところも無駄に読み込んでまうやろ？
おまけに、/dev/randomみたいなのからだと終わらないし。

**デフォルトの名無しさん** · 2020/08/02(日) 20:12:02.85

>>667
読み始めの位置と読み出すサイズはブロック単位限定？
互いに素だとブロック単位を1にする？
なんか遅そう？

# 元コメ者よりもうるさくしてるな。。。

**デフォルトの名無しさん** · 2020/08/02(日) 20:12:54.07

>>668
いや，実は算術演算の中身を書かない技巧があるのかと思ったんだわ。
そしたらどうやらそういう意図のコードじゃないらしいと後で分かって，
恥かしい勘違いだったんで黙ってたw

**デフォルトの名無しさん** · 2020/08/02(日) 22:39:25.35

>>670
素因数分解して，最適な読み出しサイズとブロック単位を決定するのおもしろそう。

**デフォルトの名無しさん** · 2020/08/03(月) 07:46:56.04

すみません、
出来てもやるべきでないのは分かるんですけど、
日本語でシンボリックリンク張って日本語でコマンド呼び出しってできますっけ？
$ エコーヤッホー
ヤッホー
$
みたいな。

**デフォルトの名無しさん** · 2020/08/03(月) 08:04:35.59

>>673
自分でやってみたら？

**デフォルトの名無しさん** · 2020/08/04(火) 20:42:37.24

できると思うけどな
環境によりけりかな？
使ってる文字コードがシフトJISみたいなやつだとダメかも知れないが、それでも大丈夫なようには作れるからなんとも言えない

**デフォルトの名無しさん** · 2020/08/04(火) 21:14:57.71

そもそもLinux/UnixはShiftJISをサポートできない
OSの設計的に不可能

（"無理やり"やってるのはあるが動作保証できない）

**デフォルトの名無しさん** · 2020/08/04(火) 21:57:03.67

>>676
逆にWindowsって，「無理やり」じゃなくShift-JISに対応できてたん？
そっちの方が驚きなんだが。

俺には文脈不明の状態でエスケープ文字とバイト化文字の一部とを判別する
OSネイティブな方法が思い付かないw

**デフォルトの名無しさん** · 2020/08/04(火) 22:20:38.92

>>677
Windows NTは最初のバージョン（1994年）から
Unicode（UTF-16）対応だからね

UTF-16は文字の一部にNULL文字が入るから
当時からC言語の標準ライブラリでは扱えないことがわかっていた
マルチバイト文字は最初から対策済みなわけよ

**デフォルトの名無しさん** · 2020/08/04(火) 22:51:05.57

>>676
設計のどこにダメな要素が？
シェルにはあるだろうが、カーネルにあるか？

「¥0」「/」が混じるとさすがに困るだろうが、それ以外ならどうにかできるやろ。

**デフォルトの名無しさん** · 2020/08/04(火) 23:01:03.79

>>679
Linux/UnixはC言語で作られてる
C言語の仕様に引っ張られてる

**デフォルトの名無しさん** · 2020/08/04(火) 23:02:50.20

>>678
同時に、OEM文字コードとしてシフトJISを採用したのだから、できない理由になってない。

ちなみに、UTF-16を採用したのは、当時は全多言語がUCS-2を前提にしてたからやろ。
振り返ると微妙な選択だったが、当時の外人にはわからんかったのはしゃあない。

**デフォルトの名無しさん** · 2020/08/04(火) 23:05:00.00

>>681
Windowsは初期バージョンから多言語対応として作られてるという話

**デフォルトの名無しさん** · 2020/08/04(火) 23:06:56.83

普通にShift-JISなUNIXとかあったし。
UNIXの多くのシステムコールでは、char*型引数は単なるバイト列で、別に\とかが意見を持ったりしない(ただしファイル名の/を除く。他に例外があるかは知らない。)。
Shift-JISでは2バイト目に/もnulも来ないから普通は問題ない。
ユーザーランドは何とでもなる。
今時のlinuxなら
# localedef -f SHIFT_JIS -i ja_JP ja_JP.SJIS
$ export LANG=ja_JP.sjis
で動く。
ja_JP.utf8とja_JP.eucJPどっちでも動くなら、localeに対応しているから、多分sjisでも動く。
普通にシェルとかも問題ない。

**デフォルトの名無しさん** · 2020/08/04(火) 23:09:26.33

>>680
じゃあ、C言語のどこにシフトJISを拒絶する要素が？

C言語が文字コードに求めてるのは終端が「¥0」であることだけだろ。
シフトJISもその条件に反しないが。
なお、エスケープが面倒というのは、できない理由にはならないので、念のため。

**デフォルトの名無しさん** · 2020/08/04(火) 23:15:26.51

>>683
いやいや、そこまで問題なくはないやろ。ｗ

たとえば、「ソ」「表」がパスに含まれたら、シェルそのままだと文字化けしたりするのでは。
localeはそこまで面倒見なさそう。

**デフォルトの名無しさん** · 2020/08/05(水) 00:11:31.18

$ echo $BASH_VERSION
5.0.17(1)-release
$ echo $LANG
ja_JP.UTF-8
$ touch "$(echo ソ表.txt| nkf -s)"
$ export LANG=ja_JP.sjis
$ ls -1 *.txt
'ソ表.txt'
$ ls -1 *.txt | od -tx1a
0000000 83 5c 95 5c 2e 74 78 74 0a
etx \ nak \ . t x t nl

**デフォルトの名無しさん** · 2020/08/05(水) 00:11:35.72

>>684
どこがってソースコードにprintf("foo\tbar");って書いてあったら
\tはタブになることぐらい知ってるやろ？

**デフォルトの名無しさん** · 2020/08/05(水) 00:46:48.96

>>687
もう一回書いてあげるで？

エスケープが面倒というのは、できない理由にはならないので、念のため。

**デフォルトの名無しさん** · 2020/08/05(水) 01:06:50.99

>>686
それは、lsとターミナルががんばったおかげじゃない？ｗ
ダメなケースがあるんじゃないかと思うんだけど、みんなに期待してええんかな？

あ、シフトJIS対応についてのオレの認識は、カーネルには関係ないだろうしシェルは不可能ではないが茨の道やろなあ、くらい。

**デフォルトの名無しさん** · 2020/08/05(水) 01:46:22.40

行末に、ダメ文字があれば、

\ で、改行がエスケープされるとか？

**デフォルトの名無しさん** · 2020/08/05(水) 03:13:28.66

やれやれだなｗ

例えば文字を一文字ずつ見ていって
_をスペースに置き換える処理は
漢字を壊すんだよ

**デフォルトの名無しさん** · 2020/08/05(水) 06:17:52.92

それはやなカンジ

**デフォルトの名無しさん** · 2020/08/05(水) 06:34:24.95

bashでダメ文字列を試したら、

a)問題なし
コマンドラインでの入力編集、ヒストリー、コマンドに渡る引数、外部コマンド呼び出し、カレントディレクトリの扱い、行末の\及びダメ文字の扱い、変数の代入と使用、変数のlengthとsubstring、コマンド置換、リダイレクトのファイル名、echo及びprintf、シェル関数名など大部分

b)一部問題あり
PS1の\wが文字化け($PWDを使うと化けない)

c)問題あり
・globで、5cを含むマルチバイト文字が2文字とカウントされる(「ソ」が?ではなく??で選ばれる。他のASCIIと被る文字は問題ない。)
・変数の置換
abc=オソソソソソソソとして、
${abc//オ/ロ}は動くけど${abc//ソ/ロ}は駄目
一方で${abc//オ/ソ}は問題ない
たしか置換前の方がglob扱いだったから、これは上のglobを直せば同時に直るかもしれない
・alias名

ちょっとした修正で全く問題なくなりそう

**デフォルトの名無しさん** · 2020/08/05(水) 08:19:35.02

× ちょっとした修正で全く問題なくなりそう
○ 多数のソフトを修正しなければならないから大問題

**デフォルトの名無しさん** · 2020/08/05(水) 08:21:45.48

SJISの問題は _ の話だけじゃないよ

ASCII文字のほぼ半分。制御文字と数字と一部の記号除いた
アルファベット文字に関する処理すべてが漢字の文字に影響する

例えばAを検索すると一部の漢字にマッチするし
Aを置換すると一部の漢字を壊す

**デフォルトの名無しさん** · 2020/08/05(水) 08:46:51.45

cat sjis.txt | tr [a-z] [A-Z] > sjis2.txt

ナニヌネノ -> オカガキギに化ける
地震で津波が発生 -> 誰尻で津濡が発生に化ける

**デフォルトの名無しさん** · 2020/08/05(水) 09:21:26.65

> 誰尻で津濡が発生

俺のフィンガーテクを受けたやつはみんなこうなる

**デフォルトの名無しさん** · 2020/08/05(水) 09:42:07.23

かつてEUC対応していたこととは次元が違うん？

**デフォルトの名無しさん** · 2020/08/05(水) 10:01:54.20

というか「WindowsのShift-JISへの対策・対応状況」と
「Linux (Unix) のShift-JISへの対策・対応状況」とでさして違いがない。

「LinuxでShift-JISに対応しようとすると多数のソフトの修正が必要」というのであれば
同じ問題がWindowsでも起きてる。
実際ダメ文字っていう概念はLinuxに限った概念じゃないからね。
むしろWindowsでShift-JISに対応しておらずダメ文字が問題になった例の方が、
人口比的なものもあるだろうけど、より有名じゃない？

**デフォルトの名無しさん** · 2020/08/05(水) 10:08:58.04

>>695
それはOSの問題ではない。
そんな処理をしたユーザーが問題。

たとえば、英字の大文字小文字変換としてコード値に0x20を加減したら、ASCIIならうまくいくが、UTF-8 ならうまくいかない。
現実のテキスト処理をするなら、文字コードの仕様にあわせることはあたりまえ。

シフトJISなら、バイトがマルチバイト文字の上位バイトか下位バイトかいずれでもないかは当然区別して処理しないと。

シェルスクリプト総合 その33

シェルスクリプト総合その33