awkについて語るスレ $2

**デフォルトの名無しさん** · 2011/02/16(水) 12:11:40

>>526
なるほど、そうできるのか。ありがとう。

**デフォルトの名無しさん** · 2011/02/17(木) 01:07:36

http://www.kt.rim.or.jp/~kbk/gawk-3.1/ に置いてあった
win32用gawkがいつの間にか公開停止になっていた。

wn32のgensubが使えて日本語が扱えて、
かつexeのみで稼動するのでインストール不要なのが便利で
公私にわたって愛用していたので、非常に悲しい･･･

**デフォルトの名無しさん** · 2011/02/17(木) 02:14:57

http://www.vector.co.jp/soft/win95/util/se376460.html
↑とは違うの？

**デフォルトの名無しさん** · 2011/02/18(金) 11:30:36

それは少し古い.
gawk-mbcs-win32-20090920.zip が手元にあるので必要なら再配布するが?

**528** · 2011/02/19(土) 01:36:10

>>530
もし私に言ってくれているのであれば、
exeのみだけど2009/11/24版が手元にあるので、
これを使い続けようと思う。ありがとう。

**デフォルトの名無しさん** · 2011/02/19(土) 08:18:59

俺の手元に、gawk-mbcs-win32-20091124.zip があった。
欲しい人がいて、かつ再配布に問題無いという事がわかればどっかにうｐするが。

しかしなんで配布やめちゃったんだろね。
どこからか拝借したコードとかのライセンス問題なのかな？

**デフォルトの名無しさん** · 2011/02/19(土) 22:51:02.65

AWK++によるオブジェクト指向入門
http://ja.wikibooks.org/wiki/AWK%2B%2B%E3%81%AB%E3%82%88%E3%82%8B%E3%82%AA%E3%83%96%E3%82%B8%E3%82%A7%E3%82%AF%E3%83%88%E6%8C%87%E5%90%91%E5%85%A5%E9%96%80

awk++は面白そうだけど、現実にはawkでOOをやる人はほとんどいないだろう。
そもそもawk使いはOOを理解できない高齢者がほとんどだし。
でも、gawkがデフォルトでOOに対応すればawkでオブジェクト指向する人も増えるかもね。

**デフォルトの名無しさん** · 2011/02/19(土) 23:05:51.24

>>533
デフォでインストールされるawkでできる範囲のことしかやらないよ

**デフォルトの名無しさん** · 2011/02/20(日) 00:59:51.51

同感。＞デフォでできる範囲
長めのスクリプトを書いた事があったのでOOあると便利と思うけど
わざわざインストールするならperl、ruby、pythonがあるしなぁ

**デフォルトの名無しさん** · 2011/02/22(火) 10:31:51.00

awkで書かれたawk++ってないの？

**デフォルトの名無しさん** · 2011/03/02(水) 23:14:41.35

gawkで平仮名・カタカナの部分を抜き出したいと思ってます。
例えば「awkについて語るスレ」だったら
"について" "るスレ" を変数に入れたいのですが、いい方法ありますでしょうか？

**537** · 2011/03/02(水) 23:17:39.07

「について」と「るスレ」はそれぞれ別の変数に入れたいと思っています

**デフォルトの名無しさん** · 2011/03/02(水) 23:27:45.29

アルファベット以外の部分だったら、アルファベットをFSに指定してwhileで回せばいいけど、
漢字も抜くのは難しいな。
それに、事実上変数は無限に生成するって事か。

**デフォルトの名無しさん** · 2011/03/02(水) 23:58:57.50

matchの第2引数に/[あ-んア-ン]+/を持ってくるとか?

**デフォルトの名無しさん** · 2011/03/03(木) 13:28:46.50

$0,$1...$NFを壊してもいいんだったら、私ならこうします。

gsubの検索文字鉄には正規表現を使用することができるから、
ひらがなとカタカナ以外の文字をスペースに置き換える。

gsub(/[^ーぁ-んァ-ン]/," ")

ひらがなとカタカナ以外の文字は半角スペース２つに置き換わる。
あとはNFを見て表示したいように処理する。

注意すべきは、Windows版の新しいバージョンのものでは、
正規表現として、ひらがなをぁ-んで、カタカナをァ-ンで
指定できないものがあります。
たしかマルチバイト拡張で壊された。

**537** · 2011/03/03(木) 14:28:35.14

>541
まだ試してませんが、欲する文字以外を消してゴニョゴニョすればいけそうです。
>539-540さんもありがとうございました。

**デフォルトの名無しさん** · 2011/03/03(木) 19:41:21.36

BEGIN {
str = "デンコ漢字ばんざい元気abcdeだから"
c = split(str, a, "[^ーァ-ンぁ-ん]")
for (i = c; i>=1; i--) {
if ( a[i] !~ /^$/ ) { print a[i] }
}
}

**デフォルトの名無しさん** · 2011/03/03(木) 19:44:47.65

ボケかました
4行目は普通に
for ( i = 1; i <=c; i++) {
でOK。

**デフォルトの名無しさん** · 2011/03/03(木) 22:55:52.84

cを残さなくとも
for (i in a){if (a[i]) print a[i]}
で間に合うような。

**デフォルトの名無しさん** · 2011/03/04(金) 01:04:03.52

for-inだと順序が保障されないんじゃなかったっけ?

**デフォルトの名無しさん** · 2011/03/04(金) 08:34:52.75

for ( i = 1; i in a ; i++) って書き方もできるよ

**デフォルトの名無しさん** · 2011/03/07(月) 14:14:11.11

a1 a1 a1 a2 a2 a3
b1 b1 b1 b1
c1
d1 d2 d2
....

のように、フィールド数がバラバラで、フィールドが一致する場合もあれば
一致しないデータがあるのですが、重複を
a1 a2 a3
b1
c1
d1 d2
のようにまとめあげるにはどうしたらよいでしょうか？
さすがにググってコピペという訳にもいかず。。。

**デフォルトの名無しさん** · 2011/03/07(月) 14:31:25.16

>>548
いろいろやり方はあると思うが

awk '{j=0;delete a;for(i=1;i<=NF;i++){if(!a[$i]++){$(++j)=$i}}NF=j;print}'

**デフォルトの名無しさん** · 2011/03/07(月) 14:53:42.21

ありがとうございます。
それぞれ、4つ重複データのあったものは3つに、2つのものは1つにと減ったのですが
それ以上減ってません。同じコマンドを繰り返しかけてみたのですが、変化はなかったです。

a1 a1 a1 a1
b1 b1 b1
...の部分が
a1 a1 a1
b1 b1
にはなったという意味です。
もう少しおつきあいいただけないでしょうか。。。

**デフォルトの名無しさん** · 2011/03/07(月) 15:06:41.15

手元では一つになるけどなぁ。原理はわかるだろうからあとはがんばれ。
行ごとにフィールドの添字についてループするのと連想配列で出現チェックがキモ。

% cat hoge.txt
a1 a1 a1 a2 a2 a3
b1 b1 b1 b1
c1
d1 d2 d2
% awk '{j=0;delete a;for(i=1;i<=NF;i++){if(!a[$i]++){$(++j)=$i}}NF=j;print}' hoge.txt
a1 a2 a3
b1
c1
d1 d2

**デフォルトの名無しさん** · 2011/03/07(月) 15:14:33.26

0610005C13Rik 0610005C13Rik 0610005C13Rik
0610007C21Rik 0610007C21Rik 0610007C21Rik 0610007C21Rik 0610007C21Rik

こういう感じの文字列なんですが
a1とかb1で例えても大丈夫だったですか？

**デフォルトの名無しさん** · 2011/03/07(月) 15:38:11.62

空白で区切られた文字列ならなんでもいいが、そのレベルの質問が
出るようじゃもうすこし基礎を勉強しないとだめかもなぁ。

**デフォルトの名無しさん** · 2011/03/07(月) 15:50:13.69

シングルクオーテーション使用のサンプルで問題ないと言う事は～
ＵＮＩＸ環境なのかな～

**デフォルトの名無しさん** · 2011/03/07(月) 15:58:11.87

Mac OSXのターミナルを使ってます。
>>551はそのままうまく動きました。
いま昇順で手動で作業してますが、まだzを抜けることができません。
もう手がつりそうです

**デフォルトの名無しさん** · 2011/03/07(月) 16:04:33.75

一行野郎を分解してスクリプトに組み直して弄れば動作確認出来ると思う

**デフォルトの名無しさん** · 2011/03/07(月) 16:21:10.50

いまwまできました。もうだめです。
一応、ファイルをおいてみます。。。
http://www5.puny.jp/uploader/download/1299482386.zip
パスは1234です。

**デフォルトの名無しさん** · 2011/03/07(月) 17:18:15.93

まだやってるのか～
ファイルの　＾Ｍ　が問題みたいだから
ＣＲＬＦのファイル形式に変換して上の一行野郎で問題ないみたいだったよ。

**デフォルトの名無しさん** · 2011/04/19(火) 03:07:46.46

#複数行の入力中、先の行の11カラム目にOUTが含まれているかつ次の行の11カラム目にINが含まれている2行が揃った時、2行を出力
$11~/OUT/{ prev=$0; }
$11~/IN/{
if(prev!=""){ print prev; print; }
prev="";
}

**デフォルトの名無しさん** · 2011/04/19(火) 15:55:50.78

# 7.awk
NR >= 2{
if($0 ~ /^>'=+/){
if($0 ~ /~$/){
print "A";
}else{
print "NAA";
}
}else if($0 ~ /^>\^(Q=)+/){
if($0 ~ /~~$/){
print "B";
}else{
print "NAB";
}
}else{
print "NAC";
}
}

7.txt
3
>'======#======~
>^Q=Q=Q=Q=Q=Q=Q=Q=~~
>'===#====~
NAA
NBB
NAA　　　となる。何で？
A
B
A　　となってほしいのに・・・gawk 3.1.7です・・

**デフォルトの名無しさん** · 2011/04/19(火) 16:30:51.01

俺の手元のgawk 3.1.7では期待通りの結果になるなあ。

行末がらみだと改行コードが違ってたり見えない空白が
入ってたりというのがよくあるので確認してみ。

**デフォルトの名無しさん** · 2011/04/19(火) 16:32:43.45

>>560
あと

/^>'=+/

ってキャプチャとかしてるわけじゃないから+は無駄じゃないか。

**デフォルトの名無しさん** · 2011/04/19(火) 16:45:20.75

>>561
ありがとうございました。改行コードをunix形式にしたら出来ました。
今後ともよろしくお願い致します。

**デフォルトの名無しさん** · 2011/04/19(火) 17:00:39.34

>>559

INがあるときにしかprevがクリアされていないから、OUTが出現した以降に
複数行が経過してもINが出現するとprintされるスクリプトになっているよ。

**559** · 2011/04/20(水) 01:08:11.06

http://okwave.jp/qa/q6672025.html
とかの入力をイメージしてたもので...

$11~/OUT/{ prev=$0; }
$11~/IN/{
if(prev!=""){ print prev; print; }
}
$11!~/OUT/{ prev=""; }

**デフォルトの名無しさん** · 2011/05/01(日) 16:22:39.39

http://okwave.jp/qa/q6660984.html
#2列目の項目がdisk1～4まで不足部分が埋まるようにし、不足していた部分の1列目には前の時間、3列目には0で埋めたい
BEGIN{ dt=prevDt="00:00:00"; }
NF>=3{ dt=$1; tgt=$2; n=$3; }
NF==2{ tgt=$1; n=$2; }
{ gapDisp(prevTgt,tgt); disp(dt,tgt,n); prevDt=dt; prevTgt=tgt; }
END{ gapDisp(tgt,"disk1"); }

function disp(dt,tgt,n){ print dt, tgt, n; }
function gapDisp(disk,endDisk, cnt)
{
for(cnt=add(getNo(disk)); cnt!=getNo(endDisk); cnt=add(cnt)) disp(prevDt, sprintf("disk%d", cnt), 0);
}
function add(cnt){ return ((++cnt>4)?(1):(cnt)); }
function getNo(disk){ sub(/disk/,"",disk); return disk; }

**デフォルトの名無しさん** · 2011/05/01(日) 19:40:09.87

BEGIN { reset() }
NF == 2 { $3 = $2; $2 = $1; $1 = last_t }
{ last_t = $1 }
{ if ($2 < last_disk) { p(); reset() } last_disk = $2 }
{ n[$2] = $3 }
{ for(i in n) { if (i >= $2) { t[i] = $1 } } }
END { p() }
function p() {
for (i = 1; i <= 4; i++) {
d = "disk" i
print t[d], d, n[d]
}
}
function reset() {
for (i = 1; i <= 4; i++) {
d = "disk" i
t[d] = t["disk4"]
n[d] = 0
}
}

**デフォルトの名無しさん** · 2011/05/03(火) 14:58:05.53

間違ってるよ
しかも長くて美しくないよ

**デフォルトの名無しさん** · 2011/05/03(火) 15:13:19.32

http://okwave.jp/qa/q6711117.html
...こんな感じかねぇ？　　 awk -f sum.awk データ | sort
----- sum.awk -----
$1!~/商店名/{ tbl[$1 "," $2]+=$3; }
END{
　for(key in tbl){
　　split(key, item, /,/);
　　print item[1], item[2], tbl[key];
　}
}
-----

**デフォルトの名無しさん** · 2011/05/03(火) 15:33:28.80

>>566
NF==3 {
disp();
for(i=1;i<=4;i++) {
disk_time[i]=$1
disk_val[i]=0
}
disk_val[substr($2, 5, 1)]=$3
}
NF==2 {
disk_val[substr($1, 5, 1)]=$2
}
END{
disp()
}
function disp() {
for(i=1;i<=4;i++) {
if(i in disk_time) printf("%s disk%d %s\n", disk_time[i], i, disk_val[i])
}
}

**デフォルトの名無しさん** · 2011/05/03(火) 16:12:56.67

BEGIN {
    # 先頭がいきなり "disk2 15" のみで始まったりしなければ
    # この初期化は不要。
    a = "00:00:00";
}
NF == 3 {
    if (NR > 1) put();
    a = $1;
    b[$2] = $3;
}
NF == 2 {
    b[$1] = $2;
}
END {
    put();
}
function put(    i) {
    for (i = 1; i <= 4; i++) {
        print a, "disk" i, b["disk" i] + 0;
        b["disk" i] = 0;
    }
}

**デフォルトの名無しさん** · 2011/05/03(火) 16:20:05.55

>>569 awkの配列ってどれくらい確保可能なの？
先にsortしたらどうかな？ sort データ | awk -f sum.awk
----- sum.awk -----
$1!~/商店名/{ if(store==$1 && item==$2) val+=$3; else{ disp(); store=$1; item=$2; val=$3; } }
END{ disp(); }
function disp(){ if(store!="" || item!="") print store, item, val; }
-----

忍法帖【Lv=40,xxxPT】【東電 76.6 %】株価【E】 · 2011/05/04(水) 17:32:38.53

ヘックション

**デフォルトの名無しさん** · 2011/05/06(金) 00:54:22.24

$ uname -sr
CYGWIN_NT-6.1 1.7.9(0.237/5/3)
$ awk --version
GNU Awk 3.1.8

この環境で、
awk 'BEGIN {for(i=j=1;i<50;++i) {print j; j*=10}}'
これ実行すると、jが23桁超えたあたりから、おかしくなるんだけど。

awkの整数って上限あるの？（ウチだけか？）

**デフォルトの名無しさん** · 2011/05/06(金) 01:09:59.27

long double辺りの精度しかないよ。

**デフォルトの名無しさん** · 2011/05/06(金) 09:18:39.10

>>574
おれのＰＣでは普通に 1 から 1e+048 まで表示されますが。。。

忍法帖【Lv=25,xxxPT】 · 2011/05/06(金) 09:54:18.77

http://ideone.com/QpAMD

**デフォルトの名無しさん** · 2011/05/06(金) 11:30:10.09

>>576
本当ですか！よろしければ環境を教えてください。

>>577
ありがとう。ここawkも張れたんだ。結果が長すぎて困ってたのよ。
正にこんな結果になる。

POSIXで保障されてる精度は>>575ってこと？
てことは、awkは内部では、全ての数がdouble扱いなの？

**デフォルトの名無しさん** · 2011/05/06(金) 14:20:04.87

>>578
576です。WindowsXP + GNU Awk 3.0.6 + multi-byte extension 1.15 です。

**デフォルトの名無しさん** · 2011/05/06(金) 18:58:28.81

>>579
ありがとう。
あまり違いがないな。Win7は関係ないだろうし。
multi-byte extensionがその辺りも弄っているのか…

そういえば、1e+048みたいな指数で表示されるの？
出力のとき丸めるから、ちゃんと計算できてるように見えるのかな。

**デフォルトの名無しさん** · 2011/05/06(金) 23:07:48.20

awkでは数値はすべてdoubleで扱います。
ですからその精度である53bit分、大体15桁ちょっとを超えると正確な値を保持できません。

23桁あたりまで正しく表示できてるってのはよくわかりませんが、
3.0.6にしても出力時の書式指定が違うだけで内部的には同じように不正確な値に
なってしまってると思います。

**デフォルトの名無しさん** · 2011/05/07(土) 01:38:55.53

だから、実質long doubleの精度になっているんだってば。

**デフォルトの名無しさん** · 2011/05/07(土) 11:11:15.94

>>582
「実質」というのはどういう意味?

#define AWKNUM double

ってのがあるし、long double にしても仮数部は64bitだから23桁には足りないよ?
x87のレベルで拡張精度になってても、表示やらなんやらするところで倍精度に
丸められちゃうと思うんだけど。

**デフォルトの名無しさん** · 2011/05/07(土) 13:09:06.68

http://codepad.org/4GaxJcGp
完全に一致。どう見ても double です。本当にありがとうございました

**デフォルトの名無しさん** · 2011/05/07(土) 21:19:09.46

>>581
あう、そうなのかー。ありがとうございます。困ったなぁ。
10進で実数扱えとまでは言わないけど、整数は欲しい。
数をいろんな型で扱える処理系なんてないか。

**デフォルトの名無しさん** · 2011/05/07(土) 23:01:38.63

>>583
あー、long doubleと言ったのが拙かったね。10の冪の場合は実質doubleを大きく越えた精度になっていると言いたかった。

10は2と5の積だから、10倍を繰り返すときに仮数部は5倍ずつにしかならない。
IEEEのdoubleの精度だと5の22乗で53ビットを使い果たすので、そこまでは誤差が生じない。
言い換えれば、10の場合は53ビット+22ビット、即ち75ビット分精度があるように見える。

まぁ、>584を10倍じゃなくて5倍にして、doubleをlong longにして%.fを%llxにしてビット数を数えてみればわかるでしょ。

**デフォルトの名無しさん** · 2011/05/09(月) 21:13:05.37

gawkのユーザガイドに、他の処理系では、標準エラーを使うため、
　print "Serious error detected!" | "cat 1>&2"
という方法しかないとあります。
gawkは/dev/stderrを特別に扱うため、
　print "Serious error detected!" > "/dev/stderr"
と書くのが適切とあります。

これには、どのような違いがあるのでしょうか？
/dev/stderrがあるOSなら、catのプロセスが生成される他は、違いはないのでしょうか？
環境や処理系を問わず動作させたいなら、上の書き方の方がよいのか、気になっています。

よろしくお願いします。

**デフォルトの名無しさん** · 2011/05/10(火) 00:17:11.81

他の処理系って、他のawkって事だよ。

/dev/stderrがあるOSって事ぢゃなくて、
gawkは特殊なファイル名として/dev/stderrとか使えるよ、って事だよ。

なので他のOSでも gawk だったらprintとかの出力先ファイル名として /dev/stderr 使えるって話だね。
/dev/stderrとかをサポートしていないgawk以外のawkでも動作させるならパイプと"cat 1>&2"を使う方法しかない。が、Win系はcatだと...

**デフォルトの名無しさん** · 2011/05/10(火) 09:20:21.36

そこまでのことをするならPerl/Ruby/Python等のちゃんとした
スクリプト言語で書いた方がいいんじゃないかな。こういう
どうでもいいところで悩まなくて済むよ。

awkはawkで手軽に書ける範囲なら他の追随を許さないと思うが
その枠をはみ出ようとすると途端に大変になる。そこが楽しいと
いうのなら無理には止めないけどw

**デフォルトの名無しさん** · 2011/05/10(火) 14:35:51.09

>>589
そう、それが楽しいんだ

**デフォルトの名無しさん** · 2011/05/11(水) 00:36:20.77

>>588
ありがとうございます。
catがない環境だと、どうしようもないですね…

>>589
コンマ区切りのデータを、シェルスクリプトで処理していたので、
それをawkに移植していました。一番手軽だったのです。

ちなみに、2時間半以上かかっていた処理が、1分以内に短縮されました。
ワラタ。　　　ワラタ…

**デフォルトの名無しさん** · 2011/05/11(水) 10:19:43.16

Cで書き直したら数秒で実行完了の予感ｗ

**デフォルトの名無しさん** · 2011/05/11(水) 12:14:45.46

つーてもawkとかその他のスクリプトでサクッと書けるような文字列処理を
C言語とかではあんまり書きたくならんと思うぞw

**デフォルトの名無しさん** · 2011/05/24(火) 10:19:27.54

なりません

**デフォルトの名無しさん** · 2011/05/25(水) 20:17:22.02

あぁああぁぁぁ～～～無理だったか、、無理なのかー！a[0][0] = 1 → syntax error

**デフォルトの名無しさん** · 2011/05/25(水) 21:58:46.38

>>595
gawkの場合インデックスをSUBSEP(=\034がデフォルト)を挟んでシリアライズしたインデックスで多次元配列を表現する
a[0,0] = 1;
ならOKのはず。このときのインデックスは"0\0340"だから、a["0\0340"] == 1。

**デフォルトの名無しさん** · 2011/05/26(木) 18:46:04.99

>>596
ありがとう。始めからそれを意識して書いてたらよかったんだけどね。

god["name"] = "Kaname Madoka"
god["msg"] = "Mahoushoujo ha watashi dakede juubun dayo."
homerun["name"] = "Akemi Homura"
homerun["msg"] = "Madoka ha watashi no yome."
こんな風に書いていたのを、

puella_magi["god"] = god
puella_magi["homerun"] = homerun
みたいにまとめようとしたら、あばばばば

awkの配列って処理系によっては添え字が整数の場合、処理が最適化されて早くなったりするのかな？
構造体の代わりみたいに使いたかったのだが。

**デフォルトの名無しさん** · 2011/05/27(金) 00:57:28.69

name["god"] = "Kaname Madoka"
msg["god"] = "Mahoushoujo ha watashi dakede juubun dayo."
name["homerun"] = "Akemi Homura"
msg["homerun"] = "Madoka ha watashi no yome."

でよくね？

**デフォルトの名無しさん** · 2011/05/30(月) 21:25:51.88

awkって *どの実装でも* 一度も使ったことがない変数の内容って、スカラなら0か""になってるの？
変数が一度も代入されていないことを判定するために、(x==0 && x=="")って書いて何か問題ない？

**デフォルトの名無しさん** · 2011/05/30(月) 21:31:52.21

>>599
評価されるときに変数が存在しなければ作成される。はず
配列の要素なら in で調べられるけど
変数自体となるとどうだろうね

**デフォルトの名無しさん** · 2011/05/30(月) 21:32:47.76

>>599
何度も代入した後、最後に 0 or "" を代入した変数と区別できない。

**デフォルトの名無しさん** · 2011/05/30(月) 23:19:06.92

>>600-601
ありがとう。区別できないって、どういう状態になるの？0を代入したら0か"0"に評価される。
ああ、""を代入したら0か""に評価されて駄目ってことか！？

**デフォルトの名無しさん** · 2011/05/31(火) 00:05:27.97

あれ？試したらどっちを代入しても599の式は0に評価されたよ。区別できないケースってどういう場合？

**デフォルトの名無しさん** · 2011/05/31(火) 06:28:27.99

BEGIN {
    # 初期化直後 (未使用) の変数は数値 (0) と文字列 ("") の両方の型を持つ。
    print x == 0, x == ""; # 両方とも真

    x = 0;
    print x == 0, x == ""; # 前者のみ真。

    x = "";
    print x == 0, x == ""; # 後者のみ真。

    # 他の未使用の変数を代入すると "再初期化" できる。
    x = y;
    print x == 0, x == ""; # 両方とも真。
}

**デフォルトの名無しさん** · 2011/05/31(火) 22:57:53.71

> 初期化直後 (未使用) の変数は数値 (0) と文字列 ("") の両方の型を持つ。
IEEE Std 1003.1 の awk の EXTENDED DESCRIPTION の
Variables and Special Variables に書いてあるね。 uninitialized value というらしい。
POSIXに準拠してるawkならこうなるみたいだけど、オリジナルは知らん。

再初期化するなら$(NF+1)使うほうがいいかもね。未使用の変数を用意しなくていい。
だけど、それが必要な場面が思い浮かばないが。

関係ないけど、abs関数ってないんだね。別に良いけど、πや、
0より大きい最小の浮動小数点数は定義しててほしいなあ。

**デフォルトの名無しさん** · 2011/06/02(木) 10:09:14.37

>>605
> 再初期化するなら$(NF+1)使うほうがいいかもね。未使用の変数を用意しなくていい。
フィールド変数は常に文字列型で、数値型は持たない。

**デフォルトの名無しさん** · 2011/06/02(木) 22:47:31.10

πはatan2(0,-1)でいいとして
「0より大きい最小の浮動小数点数」ってどう定義していつ使うの?

**デフォルトの名無しさん** · 2011/06/03(金) 13:48:37.95

「0より大きい最小の浮動小数点数」というのが何を希望しているかによる。
以下の3種類がある。

(1) 最小の正の非正規数
(2) 最小の正の正規数
(3) 1.0に足して丸めた結果が1.0より大きくなる最小の数

**デフォルトの名無しさん** · 2011/06/03(金) 23:58:11.26

>>606
あちゃ！そうでした。$で戻るのは文字列だった。
その仕様書読んでると、NFを拡張したとき、元々なかった所はuninitialized valueになるってあったので。

>>607
それでいいんだけど、PIとかで参照できたらもっといい、と思ったのです。
>>608
数値計算のために、CのDBL_EPSILONの代わりになる定数が欲しいなと。
任意の精度で丸められる関数もないですし。

**デフォルトの名無しさん** · 2011/06/04(土) 09:41:48.63

DBL_EPSILONが>>608の(1)～(3)のどれかわからない？
数値計算の基本なんだが。

**デフォルトの名無しさん** · 2011/06/10(金) 21:49:33.34

変数名など、自前であっても規則を意識している方いますか？
awkだと、Ｃ風が一般的なのでしょうか？
一番最初がVBAだったので、長い名前と省略が混ざってしまって
自分でイライラしています。
みなさんの、通常の変数はこう、配列はこう、定数はこう、文字型はこう･･･
というものを参考にしたいです。

**デフォルトの名無しさん** · 2011/06/10(金) 22:10:28.97

>>611
システムハンガリアンを採用するかどうか悩むほど大きなものをawkで書いたことが無い

**かあた** · 2011/06/13(月) 18:37:34.88

、5なわやあふぉt( ())

**デフォルトの名無しさん** · 2011/06/15(水) 21:51:26.93

>>611
遅レスだが、型_内容の説明_名前みたくしてる。名前が一文字だとそのままだけど。
グローバル変数とローカル変数のどっち弄ってるのか分かりやすいように、ローカル変数は必ずlで始めるようにしてる。
d_per_shouhizei = 5.0とかね。

**デフォルトの名無しさん** · 2011/06/20(月) 18:37:26.17

gawkでBINMODEを設定すればバイナリーの入出力ができるのはわかるのですが、
入力されたバイナリーを16進ダンプして表示するにはどうしたらよいでしょうか？
od等の外部コマンドを使う意外に方法があればお教えください。

**デフォルトの名無しさん** · 2011/06/20(月) 19:17:07.50

printf("%02x\n", $1);

天使 ◆uL5esZLBSE · 2011/07/05(火) 00:15:13.83

二度と話かけんなよ
お前らってどうみてもゴミだよな

**デフォルトの名無しさん** · 2011/07/06(水) 14:04:55.24

ゴミんなさい

**デフォルトの名無しさん** · 2011/07/14(木) 23:55:15.84

>>595
gawk4.0.0でa[0][0]=1も可能になったじゃないか

**デフォルトの名無しさん** · 2011/07/30(土) 19:46:15.81

超初心者の質問で申し訳ありません。以下のようなデータを
aaa 10
bbb 20
ccc 30
aaa 30
bbb 30
aaa 15
ccc 30
ddd 20
以下のようにまとめたいのですが、どうしたらいいでしょうか？
aaa 55
bbb 50
ccc 60
ddd 25

**デフォルトの名無しさん** · 2011/07/30(土) 19:53:38.97

ddd 20 ではないかと思うがこんな感じかな
awk '{a[$1]+=$2} END {for (b in a) {print b " " a[b]}}' | sort

**デフォルトの名無しさん** · 2011/07/30(土) 23:15:27.52

Gawk4ならPROCINFO["sorted_in"]の設定で最後のsortが要らなくなる

**620** · 2011/07/30(土) 23:22:20.03

>621
ありがとうございます！うまくいきました。

**デフォルトの名無しさん** · 2011/07/31(日) 15:24:48.76

gawkはもう別言語なイメージ。普段mawk使ってると

**デフォルトの名無しさん** · 2011/08/16(火) 22:48:21.64

ここって生きてますか？

**デフォルトの名無しさん** · 2011/08/18(木) 01:56:26.63

生きてますん

**デフォルトの名無しさん** · 2011/08/19(金) 00:53:44.39

生きていることを願って質問を。
WIN32のEXE一つで、下のTEST.AWKがマトモに動くAWKを探しています。
これら以外にありますか？

http://hinadori.atnifty.com/~wills/program/gawkm115.zip
http://my.vector.co.jp/servlet/System.FileDownload/download/http/0/376460/pack/win95/util/text/awk/gawk-mbcs-win32-20051223.zip?ds
http://my.vector.co.jp/servlet/System.FileDownload/download/http/0/80308/pack/win95/util/text/awk/mw32r27.lzh?ds

Cygwin版も試したのですがダメでした。

TEST.AWK
{ gsub("[0-9]","x",$0) ; gsub("ｿ","ソ",$0) ; gsub("T","Ｔ",$0) ; print }

TEST.DAT
ｱｲｳｴｵｶｷｸｹｺｻｼｽｾｿ
ココココサフサコココココ
ココココサフサココココ
ココココサフサコココココ
ココココサフサコココココ
サフサフサフサフサフサ
ココココサフサコココココ
ココココサフサココココ
ココココサフサコココココ
ココココサフサコココココ
サフサフサフサフサフサ

**627** · 2011/08/19(金) 01:00:20.60

TEST.DATは、空白が入っています。
専ブラのポップアップをコピペして下さい。

**デフォルトの名無しさん** · 2011/08/19(金) 06:26:54.92

ウチに帰ってから調べてみるよ

**デフォルトの名無しさん** · 2011/08/19(金) 11:02:41.54

>>627－628
cygwinのawk(GNU Awk 3.1.8)で動くけど、どうなるはずがどう動かないと言っている?
>627のtest.datなら、当然「ソ」だけが変換されるけど。

**デフォルトの名無しさん** · 2011/08/19(金) 11:55:06.25

（CygwinならUTF8じゃないとうまく動かないけど）Shift JISで動作させたいってことかな？
事前にTEST.DATをnkf -wに通したら駄目かな。

**629** · 2011/08/19(金) 21:59:57.43

>>627
スクリプトもDATもSJISで試したけど、上記3つのうち、gawk-mbcs-win32-20051223.zipはダメだったよ。
1行目がこんなんなる。

ｱxxｴｵｶｷｸxｺｻxxxソ

手持ちの
GNU Awk 3.1.7(windows special Nov 24 2009)
で、--ctype=SJISやっても同じ結果になるね。

スクリプト、DATをUTF-8にして、--ctype=UTF8やってリダイレクトしたファイルは正常な結果が出るよ。
リダイレクトしないでコマンドプロンプトに表示させると化けるけど。

**デフォルトの名無しさん** · 2011/08/19(金) 23:18:25.14

EUCなら半角カナもうまくやってくれるんだが…

**デフォルトの名無しさん** · 2011/08/24(水) 08:07:37.54

gawkはガンガン機能を拡張してるけど、
そろそろOOP対応してくれないかな。
awk++とかあるけど、標準でOOPできれは便利。

**デフォルトの名無しさん** · 2011/08/24(水) 22:44:37.24

> OOP
...もはやawkでやる意味が無いw 他にいくらでもある別の言語でいいじゃん

**デフォルトの名無しさん** · 2011/08/25(木) 01:14:17.45

awkに在ると便利かもと思うのは参照値くらいかな

配列や関数への参照を値として取り出し格納したり
逆にその値から元の配列にアクセスしたり元の関数を呼んだり出来ると
相当に複雑なデータ構造が表現可能になる、それこそOOPっぽいことも可能だし

でもあんまりややこしいことやるならPerlでいいから必須ではないね

**デフォルトの名無しさん** · 2011/08/25(木) 02:28:23.99

> 関数を呼んだり

変数の値を関数名として
var = "sage";
@var();
ってできるけど、それとは違うのん？

**デフォルトの名無しさん** · 2011/08/25(木) 04:07:56.67

およ、もうあるのかw
最近のawkは分からねえ…ってことは、配列への参照を使って入れ子の配列とか既に作れちゃったりするのか？

**デフォルトの名無しさん** · 2011/08/25(木) 10:56:54.36

配列の配列は作れるよ。gawk4なら。

**デフォルトの名無しさん** · 2011/08/25(木) 19:51:33.84

（´_ゝ｀）ﾌｰﾝ

**デフォルトの名無しさん** · 2011/08/25(木) 20:52:51.07

class human {
　　property name
　　property sex
　　property age
　　method new(x, y, z) {
　　　　name = x
　　　　sex = y
　　　　age = z
　　}
　　method say() {
　　　　printf("私は%s。%d歳の%sです。\n",name, age, sex)
　　}
}
class japanese : human {
　　property name
　　property sex
　　property age
　　method say() {
　　　　printf("私は%s。%d歳の%sです。国籍は日本です。\n", name, age, sex)
　　}
}
BEGIN {
　　alice = human.new("アリス", "女", 11)
　　taro = japanese.new("太郎", "男", 15)
　　yuka = japanese.new("由佳", "女", 18)
　　alice.say()
　　taro.say()
　　yuka.say()
}

**641** · 2011/08/25(木) 20:58:10.41

>>635
http://code.google.com/p/lawker/source/browse/fridge/lib/bash/awk%2B%2B/
これを使えばこの程度のOOPはどうにかできる。
本当にこの程度でいいからOOPに対応してほしい。
使う人はほとんどいないと思うが、全くできないのも困る。

**デフォルトの名無しさん** · 2011/08/25(木) 22:07:53.46

それは最早awkである必要が全く無い

**デフォルトの名無しさん** · 2011/08/26(金) 06:00:04.19

function Human(self,name,sex,age) {
self["property___name"] = name
self["property___sex"] = sex
self["property___age"] = age
self["method___say"] = "Human___say"
}
function Human___say(self) {
printf "私は%s。%d歳の%sです。\n", self["property___name"], self["property___age"], self["property___sex"]
}

function Japanese(self,name,sex,age) {
Human(self,name,sex,age)
self["method___say"] = "Japanese___say"
}
function Japanese___say(self) {
printf "私は%s。%d歳の%sです。国籍は日本です。\n", self["property___name"], self["property___age"], self["property___gender"]
}

function methodcall(obj,methodname, m) {
m = obj["method___" methodname]
@m(obj)
}

BEGIN {
Human(alice, "アリス", "女", 11)
Japanese(taro, "太郎", "男", 15)
Japanese(yuka, "由佳", "女", 18)
methodcall(alice,"say")
methodcall(taro,"say")
methodcall(yuka,"say")
}

**デフォルトの名無しさん** · 2011/08/26(金) 06:01:35.02

ごめん一部genderになってるからsexに直しといて

とりあえず、こんな感じでgawk4でもOOP自体は出来るよって話

**デフォルトの名無しさん** · 2011/08/27(土) 15:07:17.61

>>644
なるほどねー
とても勉強になります

でも、やっぱりOOP用の構文が使えればベストですね
そのほうがわかりやすいと思います

**デフォルトの名無しさん** · 2011/08/27(土) 15:58:44.09

やっぱ別言語使うべきだろ

**デフォルトの名無しさん** · 2011/08/27(土) 16:10:36.72

本当に欲しいんなら、gawkのMLにこうすればOOP実現できることを発見したんだけど、
これの糖衣構文を用意してくれって投稿するといいんじゃね
switchも実装されてるし、欲しい人が居ると分かれば付けてくれるかもよ

**デフォルトの名無しさん** · 2011/08/27(土) 16:25:08.65

#! /usr/bin/env python
# -*- coding: utf-8 -*-

class human:

　　def __init__(self, name, sex, age):
　　　　self.name = name
　　　　self.sex = sex
　　　　self.age = age

　　def say(self):
　　　　print("私は" + self.name + "。" + str(self.age) + "歳の" + self.sex + "です。")

class japanese(human):

　　def __init(self):
　　　　super(human, self).__init__(self)

　　def say(self):
　　　　print("私は" + self.name + "。" + str(self.age) + "歳の" + self.sex + "です。国籍は日本です。")

if __name__ == "__main__":

　　alice = human("アリス", "女", 11)
　　taro = japanese("太郎", "男", 15)
　　yuka = japanese("由佳", "女", 18)
　　alice.say()
　　taro.say()
　　yuka.say()

**デフォルトの名無しさん** · 2011/08/27(土) 16:26:25.23

pythonで書いてみると、
>>641と比べると特にわかりやすいわけでもないけど
>>644よりはわかりやすい

**デフォルトの名無しさん** · 2011/08/27(土) 16:53:49.92

そりゃawkはOOPLではないからな
あくまでシェルのお供でいいと思うんだ
そしてそこに高度なOOP機能は要るとは思えない
どちらかと言えばフィールド抽出とかをもっと便利にすべきだよ

**デフォルトの名無しさん** · 2011/09/17(土) 15:34:39.29

cygwin以外でgawk4.0をwindowsで使おうと思ったら、バイナリはどこで入手できもうすかね？

**デフォルトの名無しさん** · 2011/09/17(土) 16:28:58.78

cygwin で駄目な理由が分からないから教えられない。

**デフォルトの名無しさん** · 2011/09/18(日) 08:02:36.95

>>652
つhttp://www.klabaster.com/progs/gawk32.zip

**デフォルトの名無しさん** · 2011/09/19(月) 13:00:55.06

>654 さんくすこ

>653 awkの実行形式だけ入手すれば良いようにしたいのさ。

**デフォルトの名無しさん** · 2011/09/19(月) 14:01:43.39

バイナリ互換のWindowsなのに、cygwinてexeをもってくだけじゃ使えないの？

**デフォルトの名無しさん** · 2011/09/19(月) 16:07:37.39

物によっては使えたような気がする。
cygwin1.dllだっけ？にパスが通ってれば大体使えたような気がする。

**デフォルトの名無しさん** · 2011/09/19(月) 17:00:12.76

結構沢山のdllが要るよ
コマンドによるけど

**デフォルトの名無しさん** · 2011/10/24(月) 01:55:49.24

教えてください。英語得意な人

http://www.gnu.org/s/gawk/manual/gawk.html#Array-Sorting-Functions
の　asort(), asorti()で使うユーザー定義の比較関数について
3番目の引数とPROCINFO["sorted_in"]に設定するのと違うのか同じなのか？

それと
http://www.gnu.org/s/gawk/manual/gawk.html#String-Functions
に書いてある3番目の引数の説明("descending"とか)が両立してんの？

**デフォルトの名無しさん** · 2011/10/24(月) 11:34:13.18

http://www.gnu.org/s/gawk/manual/gawk.html#Array-Sorting-Functions
As with PROCINFO["sorted_in"], this argument may be the name of a user-defined function, ....

http://www.gnu.org/s/gawk/manual/gawk.html#String-Functions
The third argument can also be a user-defined function name ....
第三引数の値と同名の関数が定義済みならそれを利用するとか、
そういう方法で区別してるんじゃないの

**デフォルトの名無しさん** · 2011/10/24(月) 13:33:04.59

>>659
比較関数の与え方はPROCINFO["sorted_in"]の場合と同じってことだろ。

自分で定義した関数の名前でもいいし、11.2.1.2に書いてあるようにすでに用意
されている@～を使ってもいい。

**デフォルトの名無しさん** · 2011/11/14(月) 21:59:05.28

個人的には、GAWKにはあと、Cで書いた関数の呼び出しというか
GAWKで呼ぶ関数をCで書ける機能が欲しいと思ってるんだけど、
ここ見る限り世間的にはあんまり需要ないんかねぇ。

まぁ、それやるくらいならGAWK自体に変更を加えて再コンパイルしろってことかもしれないけど。

**デフォルトの名無しさん** · 2011/11/15(火) 01:44:31.01

PとかR使え言われると思う。

**デフォルトの名無しさん** · 2011/11/15(火) 01:58:32.43

>>662
ttp://www.gnu.org/s/gawk/manual/html_node/Dynamic-Extensions.html
じゃダメ？将来的にさらに拡張される可能性はあるみたいだけど

**デフォルトの名無しさん** · 2011/12/09(金) 00:35:09.18

最近awkcardを知って座右に置いてるのだが、日本語版って存在するのだろうか。

**デフォルトの名無しさん** · 2011/12/22(木) 16:57:35.32

ttp://gauc.no-ip.org/awk-users-jp/blis.cgi/DoukakuAWK_271
ここに書いてある通りにしても日本語に翻訳されません
どうしてですか？
環境は LinuxMint12 、 GNU Awk 3.1.8 です

**デフォルトの名無しさん** · 2011/12/22(木) 18:01:49.60

>>666
その通りにやったと言うのなら、何故poファイルを提示しないのかね、ダミアン君。

**デフォルトの名無しさん** · 2011/12/22(木) 18:07:45.38

>>667
poは作成しましたし、moも所定のディレクトリにあります。
poは自分で編集しても、そのサイトの内容をコピペしてもダメでした。

$ cat gettext.po
#: gettext.awk:10
msgid "********** Count Prime Number **********"
msgstr "＝＝＝＝＝＝＝＝＝＝素数を数える＝＝＝＝＝＝＝＝＝＝"

#: gettext.awk:14
msgid "2 is a prime number."
msgstr "2 は素数です。"

#: gettext.awk:24
msgid "%d is a prime number.\n"
""
msgstr "%d は素数です。\n"

$ ls ja_JP/LC_MESSAGES/
gettext.mo

**デフォルトの名無しさん** · 2011/12/22(木) 18:10:02.43

結果はこの通りです。

$ LC_ALL=ja_JP gawk -f gettext.awk 10
********** Count Prime Number **********
2 is a prime number.
3 is a prime number.
5 is a prime number.
7 is a prime number.

**デフォルトの名無しさん** · 2012/01/12(木) 13:56:36.33

ずいぶんawkから離れていて久しぶりに使ったら
nawkに日本語のバグがあることにしばらく気づかなかった
substr()でutf-8のテキストを切り出すとおかしな値になる
gawkでは直っている

**デフォルトの名無しさん** · 2012/01/12(木) 19:50:49.28

そもそもUTF-8に対応してたっけ

**デフォルトの名無しさん** · 2012/01/13(金) 00:28:07.37

ttp://blog.livedoor.jp/corbie/archives/cat_94960.html
残念ながら、シフトJIS、UTF-8両方で正常に動作しそうなWindows版gawkは候補の中にありませんでした。

**デフォルトの名無しさん** · 2012/01/13(金) 07:52:50.95

Linuxでは普通に動くが…

**デフォルトの名無しさん** · 2012/04/29(日) 21:07:39.93

ファイル名が"*.txt"の一覧を取得するとき、"\.txt"でマッチさせると、任意の一文字.(ドット)と解釈されてしまうんですが、いい方法無いでしょうか？

**デフォルトの名無しさん** · 2012/04/29(日) 22:04:14.36

GNU Awk 3.1.7だとドットにマッチしたけどそもそもawkの話？
具体的にコマンドがほしいな

**デフォルトの名無しさん** · 2012/04/29(日) 22:08:23.01

昭和の頃覚えたアセンブラとC言語
これがあったから
いまだに自分が損な業界で飯を食ってる

**デフォルトの名無しさん** · 2012/04/29(日) 22:36:10.83

>>676
そこからｊａｖａに行ってスマホアプリ開発ならもう一花咲いたかもしれませんねｗ

**デフォルトの名無しさん** · 2012/04/29(日) 23:09:38.43

馬鹿には無理

**674** · 2012/04/30(月) 18:07:43.22

>>675
ls | awk '{ if( match($0,"\.txt") > 0) print $0 }'
↑会社のサーバ上でこんな感じのことやろうとしてたんですが、
「gawk: 警告: エスケープシーケンス `\.' は `.' と同等に扱われます」
とメッセージが出力され、ドットが任意の一文字？と解釈されて困っていましたが、
自己解決しました。(自宅のLinuxPCで動作確認しました。GAWK3.1.7及び4.0.1)
"\.txt"では無くて、".txt"で良かったんですね。
お騒がせしました。

もしかしたら、会社のサーバ(RHEL)のGAWKが古くて解決できてないかもしれませんが。

**デフォルトの名無しさん** · 2012/04/30(月) 20:27:16.48

>>679
match() の第二引数に文字列を与えた場合は事前に正規表現への型変換が行われるが、
その際にエスケープが外れて /.txt/ と同等になってしまう、ということかと。
つまり "\\.txt" とするか、正規表現の /\.txt/ を与えればよい。

The GNU Awk User's Guide にもこの現象についての説明はあるが、
~ !~ 演算子についてしか触れられていない。
ttp://www.kt.rim.or.jp/~kbk/gawk-30/gawk_5.html#SEC32

**デフォルトの名無しさん** · 2012/05/24(木) 00:27:31.74

gawk4.0.2付属の原版ではmatchの説明にもその辺触れられてるね。
http://www.gnu.org/software/gawk/manual/html_node/String-Functions.html#String-Functions
誰かこのバージョン日本語化してないかな。

**デフォルトの名無しさん** · 2012/07/12(木) 02:26:40.35

FIFOな感じの先入れ先出しのバッファには何使えばいい？
というか、
Arrayで、たとえばA[3] からA[8]までのデータをA[1]からA[6]に動かすには何が一番早い？
できれば配列は１つしか使いたくないのだが、無理だろうか…

**デフォルトの名無しさん** · 2012/07/12(木) 09:23:22.92

速さを求めるなら毎度全要素ずらすより、読み出し位置と書き込み位置の添字持って
管理した方がたいてい速い

**デフォルトの名無しさん** · 2012/07/12(木) 10:14:32.78

awkには連想配列しかないしな

**デフォルトの名無しさん** · 2012/07/14(土) 14:35:06.22

リングバッファで何とかなるならリングバッファかな

**デフォルトの名無しさん** · 2012/07/14(土) 22:27:17.73

>>682
BEGIN{
　QMAX=3
　QTopPos=0;QTailPos=0;QNum=0;
　deQ();
　enQ("1");deQ();
　enQ("a");enQ("b");enQ("c");enQ("x");deQ();deQ();deQ();deQ();
}
function enQ(PushVal){
　if (QNum+1 > QMAX){print "おなかいっぱい"; return;}
　nextPos = (QTopPos+1) % QMAX;
　queue[QTopPos] = PushVal;
　QTopPos=nextPosQNum++;
}
function deQ(){
　if (QNum < 1){print "からっぽ"; return}
　QNum--;　TailVal=queue[QTailPos]
　QTailPos = (QTailPos +1) % QMAX;
　print TailVal;
　return TailVal;
}

**686** · 2012/07/14(土) 22:54:06.64

↑の結果はこんな感じ。
>からっぽ
>1
>おなかいっぱい
>a
>b
>c
>からっぽ

>>685の書いているリングバッファ実装です。
enqueue,dequeue回数が多いならリングバッファで良いと思う。
大抵の場合はQMAXに大きな値を設定すれば事足りるハズだけど
上限が決定できない等の事情があればdelete arrayを使った単純な配列管理かな。
ただ添え字が数値上限を超えない様な工夫は必要だね。

**デフォルトの名無しさん** · 2012/07/15(日) 21:09:36.15

リングでも上限を定めると入力ストリームの上限が不明な場合まずいことになるので、現在は
A=入力Array,C一時保管,i,k,n,p
  k=1;C[0]=0;
  for(i=1;i<=A[0];i++){n=0;while(k<i && A[k++]=C[n+=1]);if(n){
  delete C[C[0]+1];C[0]-=n;p=0;while(C[p+=1]=C[n+=1]);}p=1;
  while(match(substr(A[i],p),re)){p+=RSTART-1;n=substr(A[i],p,RLENGTH);
  if(k<i){A[k++]=n;}else{C[C[0]+=1]=n;};p+=RLENGTH;}};n=1;
  while(A[k++]=C[n]){delete C[n++];};A[0]+=C[0]-1;C[0]=0;
を使っている。
re=regexpとして、Array Aに一致するデータがあれぼそれを取得、結果をArray Aに出力、A[0]に合計が記載。

これ以上（コードサイズ、ある程度の速度、メモリの使用量を極力少なく）という条件で最適化できるだろうか…
だれか頼む。
入力と出力先が同じでも、別でも作動するコードなら尚のこと良いのだが…

**デフォルトの名無しさん** · 2012/07/17(火) 00:02:18.87

これはひどい
デバッグも拡張も無理じゃね

**デフォルトの名無しさん** · 2012/07/17(火) 22:03:00.62

基本的に一度作って後は必要に応じてコピペだがらな。他には
function grep( o, re, p, B, this, a ){
B[0]=0;if(o~"-v"){while((getline v < p)>0){if(!match(v,re))B[B[0]+=1]=v;}return B[0];};
if(o~"-o"){while((getline v < p)>0){a=v;while(match(a,re)){B[B[0]+=1]=substr(a,RSTART,RLENGTH);
a=substr(a,RSTART+RLENGTH);}};return B[0];};while((getline v < p)>0){if(match(v,re))B[B[0]+=1]=v;}return B[0];
}
なんかも良く使う。grep("-o","pattern","/var/log",data);みたいな感じで。前のはagrep("-v",pattern,B,C)の一部分。
日ごろのメンテでちょっとした手作業じゃめんどいの組むときに、ほぼ数分で組みあがるのが楽なんだよ。
サブプロセスとしてgrep呼び出すのがコストかかる時とか、perlが破損した状況でのリカバリースクリプトとして組んだのが元だけど。
カーネルさえ生きていれば後はawkバイナリ流し込めば使え、shが半分死んでいてもなんとか動くし。

**686** · 2012/07/21(土) 23:12:03.74

>>688
BEGIN{
　QMAX=9007199254740991
　QTopPos=QTailPos=QNum=0;
　hitTop=0;
　A[++z]="hoge";
　A[++z]="1 2 3 4 5";
　A[++z]="fuga";
　A[0]=z;
　for(i=1;i<=A[0];i++){
　　p=1;
　　while(match(substr(A[i],p),/[0-9]+/)){
　　　p+=RSTART-1;
　　　enQ(substr(A[i],p,RLENGTH));
　　　p+=RLENGTH;
　　}
　　if(QNum>0){
　　　while(QNum && hitTop<i)A[++hitTop]=deQ();
　　}else{
　　　delete A[i];
　　}
　};
　if(QNum>0) while(QNum)A[++A[0]]=deQ();
　for(z=1;z<=A[0];z++)print "A[" z "]:" A[z];
}

**686** · 2012/07/21(土) 23:44:24.03

691の続き
ちなみに、A[1]～A[A[0]]をgrepして結果はA[1]～A[?]に戻すスクリプトね。
複数件マッチする事があるので未処理行を上書きしないようにキュー使ってる。
function enQ(PushVal){
　if (QNum+1 > QMAX){print "Queue Overflow"; exit;}
　nextPos = (QTopPos+1) % QMAX;
　QBody[QTopPos]=PushVal;
　QTopPos=nextPos
　QNum++;
}
function deQ(){
　if (QNum<1){print "Illigal dequeue"; exit;}
　QNum--;
　TailVal=QBody[QTailPos];
　delete QBody[QTailPos];
　QTailPos=(QTailPos +1) % QMAX;
　return TailVal;
}
リングバッファの上限超えたら終了させてるけど>>688の実装も上限超えたらバグるし許して。
計ってないけどループがない分早い筈。コードサイズはお察し。
メモリはA[]にデータ抱えてる時点でアウトな感じだけどA[]を適宜消すようにしといた。
出力先を別にしたいならA[]にdeQ()せず別変数にすればおｋ。
これで良い？

**688** · 2012/07/22(日) 09:36:17.43

>QMAX=9007199254740991
ワロタwww
俺のも確かにwhile(C[p+=1]=C[n+=1]);の部分で保持してるのすべて消費分だけ上に移動させてるのが無駄なので
そのループが無い分は確かに早いはず。

あと、恥ずかしながら尋ねたいのですが、俺>>688の実装で上限超えたらバグるをkwsk
なんか見落としてたのか今更ながら心配になってきた。
昔作ったやつなんで、結構な頻度使ってきたのだが今までバグに気づかなかった

しかしデータをメモリ上に展開するからどうしても上限が出てくるな…
awkで10GBぐらいの扱う時はgetlineでなんとかなるけど、やはりメモリマップやポインタが使えたら便利だよなぁ
パッチ作ったら需要あるかな？

**デフォルトの名無しさん** · 2012/07/22(日) 11:41:46.83

>>693
691、ちょっと訂正。無駄にキュー使う分、元スクリプトから劣化してた。
> 　　　p+=RSTART-1;
>-　　　enQ(substr(A[i],p,RLENGTH));
>+　　　if(hitTop+1<i){
>+　　　　A[++hitTop]=substr(A[i],p,RLENGTH)
>+　　　}else{
>+　　　　enQ(substr(A[i],p,RLENGTH));
>+　　　}
> 　　　p+=RLENGTH;
あと、良く考えたら出力先を別にするなら、そもそもキュー不要。

バグってのは687で数値上限云々と書いたとおり、
”C[0]+=1”がawkの整数の精度誤差なし演算可能上限を考慮していないだけ。
どのawkも多分そうだと思うけど、手元の環境下での実行結果↓
C:\>gawk --version
GNU Awk 3.1.7(windows special Nov 24 2009)
C:\>gawk "BEGIN{print 9007199254740990+1}" nul
9007199254740991
C:\>gawk "BEGIN{print 9007199254740991+1}" nul
9007199254740992
C:\>gawk "BEGIN{print 9007199254740992+1}" nul
9007199254740992

実際は（hddやメモリが先に死ぬので）
一行でこれだけ正規表現がhitする事は事実上無いし、
仮に発生しても検索結果が潰れるだけで、気付かない筈。

**688** · 2012/07/22(日) 13:39:49.16

>9007199254740992
理論上、8192ペタバイトの同じデータ[aaa...]でregexp="."とすれば、発生するな…
IEEE 754の52bit制限だから、これ以上のでかい数字扱うならbig numbert対応のライブラリか,
"bc -q" |& で動かすか、xgawk、dnawkあたり使うべきだなぁ

昔誰かがbignumのawkスクリプト書いて放流していた覚えがあるのだが、
ググッても見つからん。手元にあるのはビット演算のやつだけだわ
いつかそれだけのデータをメモリ上に保持できるマシンを扱ってみたいものだ…

**デフォルトの名無しさん** · 2012/08/03(金) 02:35:23.75

awkってabsとかacosなどの基本的な算術関数が用意されてないんですね
今後も実装されることはないんでしょうか？

パイプでサクッとつないでワンラインで処理するのに重宝してたんですが・・・
代わりとなると、何使うのがよろしいですか？
できればperlは使いたくないです（どうしても好きになれない

**デフォルトの名無しさん** · 2012/08/03(金) 06:48:38.25

absは自分で書けばいいし、acos(x)はatan2(x, √(1.0 - x*x))と書けるから、
どちらも基本的ではないと判断して組み込みじゃないんだと思うけど。

PythonかRubyでいいんじゃない？　ワンライナー向きではないけど。

**デフォルトの名無しさん** · 2012/08/03(金) 07:37:24.41

>>696
ライブラリ(?)を拾って来ては?

**デフォルトの名無しさん** · 2012/08/03(金) 11:48:03.19

>>696
必要な関数値を計算するだけのプログラムをCで作っておいたら?

**デフォルトの名無しさん** · 2012/08/03(金) 20:21:59.43

昔それでベクトル演算して遊んだな

**デフォルトの名無しさん** · 2012/08/04(土) 09:23:47.83

Rubyはそこそこワンライナーも書ける感じがする、awkやPerlほどじゃないけどね
Pythonは流石にコード起こさないと辛いことが多いが

**デフォルトの名無しさん** · 2012/08/04(土) 10:27:49.07

awkでmatlabみたいなベクトル演算できるようにしてほしい

**デフォルトの名無しさん** · 2012/08/04(土) 16:48:36.10

awkでクラスを使えるようにしてほしい

**デフォルトの名無しさん** · 2012/08/04(土) 17:06:19.06

awkで全ての魔法少女を救ってほしい

**デフォルトの名無しさん** · 2012/08/04(土) 17:08:30.07

awkさんは魔女

本田 · 2012/08/05(日) 07:21:28.03

Awk++
http://awk.info/?doc/dsl/awkplusplus.html
OO in AWK++
The awk++ language provides object oriented programming for AWK that includes:
classes
class properties (persistent object variables)
methods
inheritance, including multiple inheritance

http://lawker.googlecode.com/svn/fridge/lib/bash/awk++/version21/awkpp21.zip

**デフォルトの名無しさん** · 2012/08/05(日) 09:56:26.63

デバッグ大変過ぎて死ぬる
$ cat witch.awkpp
class Witch {
var spell
method new() { spell = "mahalic mahalita" }
method perform() { print spell }
}
class Samantha : Witch {
method perform() { print "twitch" }
}
BEGIN {
# wife = Witch.new() エラー要因行
wife = Samantha.new()
wife.perform()
}
$ gawk -f awkpp -r witch.awkpp
gawk: -:10: () エラー要因行
gawk: -:10: ^ syntax error
gawk: -:10: () エラー要因行
gawk: -:10: ^ 表現の char '?' は不正です。

**デフォルトの名無しさん** · 2012/08/22(水) 00:09:49.86

size: 656 byte, supports -o -v option. Array A and B can be the same (NEW)
function xagrep( o, re, A, B, this, a, i,k ){
k=0;B[0]=A[0];if(o~"-v"){for(i=1;i<=A[0];i++){if(!match(A[i],re)) B[k+=1]=A[i];}B[0]=k;return k};
if(o~"-o"){B[B[0]+1]=0;for(i=1;i<=A[0];i++){a=A[i];if(i==k){i=i-B[B[0]+1]+1;B[B[0]+1]=k;k=B[0]+2;
while(i<=B[B[0]+1]){B[i++]=B[k];delete B[k++];}i=B[B[0]+1];k=i;B[B[0]+1]=0;}while(match(a,re)){
if(i>k){B[k+=1]=substr(a,RSTART,RLENGTH);}else{B[B[0]+1+(B[B[0]+1]+=1)]=substr(a,RSTART,RLENGTH);
k++}a=substr(a,RSTART+RLENGTH)}}if(i<k){i=k-i;k=B[0]+1;B[0]=i+B[B[0]+1];while(i<B[0])B[i+=1]=B[k+=1];
while(i<k)delete B[i+=1];}return B[0]}for(i=1;i<=A[0];i++){if(match(A[i],re))B[k+=1]=A[i];}B[0]=k;return k;
}
これ以上削れるところ無いかな？　
高速化＋サイズ優先で、変数はできるだけ使う数を少なくとの条件で

**デフォルトの名無しさん** · 2012/08/22(水) 09:51:11.01

>>708
その3つの条件の優先度がわからんな。

結構同じ部分式があるので変数に入れた方が変数は増えるけど短くなるし
場合によっては速度も速いとかありそうだけどどうなん?

例えばB[0]は特別な用途っぽいけどxとか1文字変数にしてreturnの直前に
書き戻した方が文字数は稼げる。

あと細かいがhoge+=1より++hogeの方が1文字短いとか、いらない「;」が
残ってるとか詰めが甘いところがまだあるね。

**デフォルトの名無しさん** · 2012/09/30(日) 22:45:00.64

以下のようなデータの処理について質問いいでしょうか。
$1に経過時間（時刻）、$2に「速度」があれば$3の数値は速度を、$2$3に
「up a」「down a」などとあればその時刻での行動を示します。

このデータからup、downの場所を求めたいと思います。
つまり、下の例で移動開始からの距離3でup a、距離3.5でup b、という具合です。
経過時間と速度から場所を計算するだけですが。速度を変更するタイミング・
回数は不定、速度データと行動データはともに経過時間順に記録されています。
速度変更をどう扱えばいいのか、ちょっと頭が回りません。

---元データ例---
0 速度 10
50 速度 20
200 速度 25
30 up a
35 up b
40 down a
40 down b
50 up a
70 down a
200 up c
250 down c

---処理後---
3 up a
3.5 up b
4 down a
4 down b
5 up a
6 down a
12.5 up c
14.5 down c

**デフォルトの名無しさん** · 2012/10/01(月) 11:28:30.42

疑問を提示。
$1が常に時刻で$2が速度のときの$3が速度なら、
30 up aのときに30 * 10で300 up aになるんじゃないだろうか。
同じように、70 down aのときに50 * 10 + (70 - 50) * 20で900 down aになるんじゃないだろうか。

$3が速度(単位時間当たりの移動量)ではなく単位移動量当たりの所要時間なのであれば、
30 up aで30 / 10 = 3、70 down aで50 / 10 + (70 - 50) / 20 = 6になるんだけどね。

**デフォルトの名無しさん** · 2012/10/01(月) 13:21:34.21

実装してみた。速度が途中に出てきてもいいようにposを毎回計算するから効率悪いけど。
--
BEGIN {
sCount = 0;
}
$2 == "speed" {
sTime[sCount] = $1;
sSpeed[sCount] = $3;
++sCount;
next;
}
{
pos = 0;
for (ic = 1; ic < sCount; ++ic) {
if (sTime[ic] > $1) break;
pos += (sTime[ic] - sTime[ic - 1]) / sSpeed[ic - 1];
}
pos += ($1 - sTime[ic - 1]) / sSpeed[ic - 1];
print pos, $2, $3;
}

**デフォルトの名無しさん** · 2012/10/01(月) 20:30:33.48

>>711
すみません、前者ですね。なんだろう、恥ずかしい。

>>712
なので、アクション部の / を * に変えればよさそうです。

お二方、ありがとうございます。

**デフォルトの名無しさん** · 2012/12/13(木) 11:40:43.98

awkにかわる同等のものあります？

**デフォルトの名無しさん** · 2012/12/13(木) 13:08:08.26

python

**デフォルトの名無しさん** · 2012/12/13(木) 13:13:55.85

>>715
awkみたいに使い勝手いいのかな？

**デフォルトの名無しさん** · 2012/12/13(木) 13:18:24.65

良いですよ

**デフォルトの名無しさん** · 2012/12/13(木) 13:24:31.23

>>717
ありがとす。勉強してみます

**デフォルトの名無しさん** · 2012/12/13(木) 14:45:25.45

はい

**デフォルトの名無しさん** · 2013/02/06(水) 03:49:18.86

“任意の記号”を含んだシェル変数をawkに渡すことは可能ですか？たとえば

[user@localhost ~]$ var='hoge'
[user@localhost ~]$ echo "hoge" | awk -v var="$var" '
$0 ~ var {print var}
END {print var}
'
hoge
hoge

ここで、varに$を含ませると

[user@localhost ~]$ var='hoge$fuga'
[user@localhost ~]$ echo "hoge" | awk -v var="$var" '
$0 ~ var {print var}
END {print var}
'
hoge$fuga

とうまくマッチしませんでした。var自体は渡されているはずですが、何が原因でしょうか？

**デフォルトの名無しさん** · 2013/02/06(水) 11:23:41.42

>>720
いちぎょうめのひだりがわの var は、ひょうかのさいに
せいきひょうげんへのかたへんかんがおこなわれる。

$0 ~ /hoge$fuga/ {print "hoge$fuga"}
END {print "hoge$fuga"}

めたもじとなってしまうものは、じぜんあるいはこーどのなかで
えすけーぷするひつようがある。

**デフォルトの名無しさん** · 2013/02/06(水) 11:29:22.31

~(チルダ)の右辺は正規表現として解釈されるから、"hoge" ~ /hoge$fuga/ でマッチするわけがない。
逆に寧ろ、"hoge$fuga" ~ /hoge/ ならマッチする。

**デフォルトの名無しさん** · 2013/02/06(水) 11:33:09.61

>>720
>721も>722もどちらも原因。やりたいことをよく整理しよう。

**720** · 2013/02/06(水) 15:09:21.72

すいません、echo "hoge"ではなくecho "$var"でした。
ただ、結果は>>720と同じです。

要は入力ファイル内の「メタ文字込みの任意の文字列」を、別の「メタ文字と改行込みの任意の文字列」で置換する、
というのをメタ文字のエスケープ等の面倒な処理をせずにサクッとやりたいのですが、できますか？

**デフォルトの名無しさん** · 2013/02/07(木) 05:01:43.19

ﾑﾘ

予め「メタ文字と言っても $ しか出てこない」とか判ってるなら大したこと無いけど
一般化すればするほど面倒になる

**720** · 2013/02/07(木) 22:14:56.21

>>725
やはりそうですか。
今までこういった処理はsedでしこしこエスケープしてやってたんですが、いい加減面倒になったので、
たとえばfgrepみたいに正規表現をオフにして処理する方法はないかと探しているんですが、
awkでは無理ですか・・・。