X



Perl初心者スレ(マジレス回答)
0444デフォルトの名無しさん垢版2018/10/06(土) 17:28:12.58ID:MMGbFZjG
436です。皆様ありがとうございました。
自分では1行ずつ処理することまでしかできず、複数レコードの
1コラム目の比較をすることができませんでした。
おかげさまで体育の日に子供の運動会に行けます!
ありがとうございました!
0445デフォルトの名無しさん垢版2018/11/11(日) 14:10:45.60ID:eqm/EHYd
上の方のレスにも関連したものがありますが、
ファイルから読み込んだ文字列データにて
パターンマッチがヒットしません。
同一文字列を直接コード内に定義すると、ヒットします。

出来ればファイルに切り出したいので、
ご教示いただけますでしょうか。
0446デフォルトの名無しさん垢版2018/11/11(日) 14:11:11.73ID:eqm/EHYd
[環境]
Activeperl win8.1 or 2016 server
perl -v
This is perl 5, version 24, subversion 3 (v5.24.3) built for MSWin32-x64-multi-thread

[コード utf-8で作成]
#res[1]にはcp932のコードの「テスト」を含む文字列が格納されている。
$res[1] = Encode::decode('cp932', $res[1]);

#patern.txtはutf-8で「テスト」の文字列が格納されている。
open (FILE, "<:utf8", "patern.txt") or (die "$!");
my $line = <FILE>;
close(FILE);
#$line = 'テスト';←#を外して直接コードに書くとヒットする。
print encode('cp932', $line);(正常に取得できている。)

if ($res[1] =~ /$line/){
print "Hit!";
} else{
print "not Hit";
}

---出力---
>テスト
>not Hit
0450デフォルトの名無しさん垢版2018/11/12(月) 07:45:13.53ID:8fj5l105
遅くなりすみません。
テストファイルには改行を入れていなかったのですが、
chompが必要なのですね。
ファイルからレコードを取得するにはchompが必要と勉強になりました。
ありがとうございました。
0451デフォルトの名無しさん垢版2018/11/12(月) 09:22:08.61ID:I5PkaEyl
>>450
いや、改行は入っていると思うぞ。でなければあのプログラムでは一致する。
0453デフォルトの名無しさん垢版2018/11/13(火) 17:46:33.84ID:/6RlnNZj
ところでUTF-8にBOMってなんか意味あるの?
ビッグエンディアンで上のビットから詰め込んで並べている1パターンしかないよね?
0454デフォルトの名無しさん垢版2018/11/13(火) 18:09:12.36ID:3HdfrOce
>>453
あるよ、BOMがあればUTF-8だと文字コードを
簡単に判定できる

つまり、文字化け防止に役立つ
みんなBOM付けるようにすれば良かったんだけどな
0455デフォルトの名無しさん垢版2018/11/13(火) 19:44:37.81ID:/6RlnNZj
あー。magic用か。
0456デフォルトの名無しさん垢版2018/11/14(水) 00:34:48.87ID:efwoHdbt
>>450
ですが、改行が入っていました。
遅くなりすみません。
すみませんでした。確認をしっかりします。

もう一つ質問があるのですが、>>450の環境にて、パターンマッチングを、全角、半角、ひらがな、カタカナ、大文字、小文字を区別することなく行いたいのですが、方法をご教示いただけますでしょうか。
0457デフォルトの名無しさん垢版2018/11/14(水) 09:45:09.68ID:bDqFuzUS
>>456
手順としてはまず比較に都合のいいように比較する側とされる側の文字列を正規化する。
例えば半角は全て全角にし、濁点や半濁点はそれを含んだ文字にし、英小文字は大文字にする。
それから比較を行う。

ただし使われている文字がASCIIの文字だけならば // のオプションで i が使えるので正規化不要。
0458デフォルトの名無しさん垢版2018/11/14(水) 12:24:46.73ID:XfG22Q3S
教えて下さい。

my @str4=['a','b','c','d','e'];
my $ref4=\@str4;

print $str4[0][1],"\n"; # b
print @{ $str4[0] },"\n"; # abcde

ref4を使って同様に b と abcde を表示するには、どうしたらいいですか?
0459デフォルトの名無しさん垢版2018/11/14(水) 12:38:11.11ID:XfG22Q3S
うっかり自己解決しました。数時間悩んだのに。
print @{ ${ $ref4 }[0] };
print @{ ${ $ref4 }[0] }[1];
0460デフォルトの名無しさん垢版2018/11/14(水) 19:36:24.69ID:dXHPcciK
>>457
オプションで可能であればと思ったのですが、マッチング文字列と対象を同じ文字種にしないといけないんですね。
ActivePerlでUnicode::Japanese
でUTF8から変換して書いてみたのですが、cp932にencodeすると、化けてしまい、使用できませんでした。
ActivePerlで使用可能なモジュールあればコードではなくてかまいませんので、何かあれば紹介してもらえますでしょうか。
0461デフォルトの名無しさん垢版2018/11/14(水) 20:41:47.52ID:bryEJhFF
UNICODEにはcomposed、decomposedというややこしいものもあるんだよね。
https://pointoht.ti-da.net/e8205606.html
Unicode::Normalizeってのがあるけど、日本語を特別扱いしてくれたりはしなさそうな予感。
0462デフォルトの名無しさん垢版2018/11/14(水) 22:57:23.73ID:otO/yyOk
>>453-455
Linux では、BOM なしUTF-8 を使う、アプリ開発者が多く、
BOMありにするとバグるアプリがあるから、BOMなしを使っているけど、

そうすると、Windows では、sjis と区別がつかなくなり、
Explorer での文字列検索ができなくなる

だから、Windows10 で、WSL, Ubuntu を導入して、grep を使っている
0463462垢版2018/11/14(水) 23:51:54.30ID:otO/yyOk
結合文字列をUnicode正規化で合成する方法の危険性
https://qiita.com/monokano/items/d4c37d9bc9833eaeda6e

濁点・半濁点を別の1文字として扱う、結合文字列はMac だけだから、Mac を使わないなら関係ない

Unicode正規化は、日中韓で、別の漢字に変換されるものがあるから使えない

Ruby では、sjis・UTF-8 の変換は、ファイル読み書き時に指定できる。

CRLF・LF の改行コードの違いは、意識したことがない。
chomp とか、どちらの改行コードでも、正常に動く
0465デフォルトの名無しさん垢版2018/11/21(水) 22:55:48.65ID:M0TZNmLm
>>464
有料ですがnkfのActivePerl用をnamazuというところから購入しましたが、
nkfで変換後、utf8でマッチングが不可能で調査中です。
0466デフォルトの名無しさん垢版2018/11/21(水) 23:00:44.11ID:M0TZNmLm
ハッシュを要素に持つハッシュへのアクセスについて
ご教示いただけますでしょうか。
下記のコードで、読込は正常に完了しますが、出力が不可能です。
$$を使用したり、試しましたがギブアップです。

#hash.txtの中身(タブ区切り)
#1 10 テスト1
#2 5 テスト2

use Encode;
use utf8;
my %table;
my %rec;

open (FILE, "<:utf8", "hash.txt") or (die "$!");
while(my $line = <FILE>){
 chomp($line);
 @d = split(/\t/, $line);
 %rec = ('id' => $d[0], 'count' => $d[1], 'name' => $d[2]);
 $table{$d[0]} = \%rec;
 print encode('cp932', $table{$d[0]}{'id'})."\t". encode('cp932', $table{$d[0]}{'count'})."\t".encode('cp932', $table{$d[0]}{'name'})."\n";
}
close(FILE);
print Encode::encode('cp932', "読込完了\n");

foreach my $row (@$wrote_num){
 #出力不可能
 print encode('cp932', $row{'id'})."\t". encode('cp932', $row{'count'})."\t".encode('cp932', $row{'name'})."\n";
}
print Encode::encode('cp932', "$出力完了\n");
0467デフォルトの名無しさん垢版2018/11/22(木) 00:04:25.39ID:V9xGGA7p
wrote_numが何か分からんけど
my %rec; はwhile内にしたらどうですか
あと、$rowはハッシュのリファレンスだろうから$row->{'id'}では
0468デフォルトの名無しさん垢版2018/11/22(木) 10:12:03.32ID:iCX1SQ90
>>467
すみません、レス用に書き換えた元がwote_numでした
下記の様に変えましたが、アクセスできません。
意外と難しいですね。
use Encode;
use utf8;
my %table;


open (FILE, "<:utf8", "hash.txt") or (die "$!");
while(my $line = <FILE>){
chomp($line);
@d = split(/\t/, $line);
my %rec = ('id' => $d[0], 'count' => $d[1], 'name' => $d[2]);
$table{$d[0]} = \%rec;
 print encode('cp932', $table{$d[0]}{'id'})."\t". encode('cp932', $table{$d[0]}{'count'})."\t".encode('cp932', $table{$d[0]}{'name'})."\n";
}
close(FILE);
print Encode::encode('cp932', "読込完了\n");


foreach my $row (@$table){
print encode('cp932', $row->{'id'})."\t". encode('cp932', $row->{'count'})."\t".encode('cp932', $row->{'name'})."\n";
}
print Encode::encode('cp932', "$出力完了\n");

実行結果:まだアクセスできません
>hash_test.pl
1 10 テスト1
2 5 テスト2
読込完了
出力完了
0469デフォルトの名無しさん垢版2018/11/22(木) 10:30:19.76ID:Enb78Zev
これでいけると思いましたが、玉砕でしたw

foreach my $row (@$table){
 while (my ($id, $count, $name) = each(%row)){
 print encode('cp932', "$id\t$count\t$name\n");
}
0470デフォルトの名無しさん垢版2018/11/22(木) 10:54:51.08ID:iCX1SQ90
これでいけました!
foreach my $row (keys %table){
 print encode('cp932', "$table{$row}{'id'}\t$table{$row}{'count'}\t$table{$row}{'name'}\n");
}
>hash_test.pl
1 10 テスト1
2 5 テスト2
読込完了
1 10 テスト1
2 5 テスト2
出力完了

ただ、key を外して foreach my $row (%table)とすると下記の通り改行が入ります
1 10 テスト1

2 5 テスト2

出力完了
0471デフォルトの名無しさん垢版2018/11/22(木) 11:07:56.03ID:Enb78Zev
これで全てのハッシュ要素を出力できますが、
カラム順が不確定になってしまいますね。
ハッシュなので仕方ないことですかね。

foreach $row (sort keys %table) {
 foreach $col (sort keys %{$table{$row}}) {
 print encode('cp932', "$table{$row}{$col}\t");
}
print "\n";
}
>hash_test.pl
1 10 テスト1
2 5 テスト2
読込完了
5 2 テスト2
10 1 テスト1
出力完了
0472デフォルトの名無しさん垢版2018/11/22(木) 12:53:27.47ID:+z2Jd1go
>>471
キーだけ別の配列に取っといてそれ使えば?
0473デフォルトの名無しさん垢版2018/11/25(日) 19:58:05.78ID:Ngr2zrFy
>>472
できれば要素をカラム名でアクセスしたいのでハッシュの方がいいのですが、カラム順固定出力は配列しかないということですね。
0475デフォルトの名無しさん垢版2018/11/26(月) 04:07:41.06ID:LFi/GsCA
>>471
foreach $col (sort keys %{$table{$row}}) {

foreach $col (qw/id count name/) {
とかでは? keyの名前も順番も分かってるんだし。
0476デフォルトの名無しさん垢版2019/06/24(月) 04:43:33.88ID:4+LiJo6+
自分が昔質問したことにたいして今なら回答できる
<> は <STDIN> の単なる略ではなく
@ARGV が捕れない副作用があった
そこに詰まっていた

#!/usr/bin/env perl
use 5.010;


if (-p STDIN) {

print "May be pipe is used. I've got STDIN as below\n";

# my @lines = <STDIN>; # when <> used, perl think no @ARGV

map {state $i; ++$i;print "$i $_" } <STDIN>;

}

else {

print "This may be just single running.\n";

}


map {state $i; ++$i; print "$i argment found ==> $_\n"} @ARGV;
0477デフォルトの名無しさん垢版2019/08/29(木) 20:58:11.72ID:72vdfcsY
タグを除去したいのですが、<>も文に入っているため
<.*?>ではなく<("[^"]*"|'[^']*'|[^'">])*>を使いたいのですが
perl -pe '<("[^"]*"|'[^']*'|[^'">])*>'
にする場合どれどれをエスケープすればよいでしょうか?
’だけだと動きませんでした。
perl -pe '<("[^"]*"|\'[^\']*\'|[^'">])*>'
0478デフォルトの名無しさん垢版2019/08/30(金) 12:09:22.02ID:VkI78Ia/
除去?だったらs/パターン//gみたいにやらないと何も変わらないのでは?
てか、それエラーにならないの?
0479デフォルトの名無しさん垢版2019/08/30(金) 13:51:46.18ID:XCxRWcZV
5chの書き込みのほう、つけ忘れてました
perl -pe 's/<("[^"]*"|'[^']*'|[^'">])*>//g'
です

perl -pe 's/<.*?>//g'は動くんですけど

perl -pe '<("[^"]*"|\'[^\']*\'|[^'">])*>'だと動かないんですよね
0481デフォルトの名無しさん垢版2019/08/30(金) 17:21:58.25ID:8Dc5lx9D
こうか?
perl -pe 's/<("[^"]*"|'"'"'[^'"'"']*'"'"'|[^'"'"'">])*>//g'
perlというよりシェルのシングルクォートの問題
0483デフォルトの名無しさん垢版2019/08/30(金) 17:56:41.24ID:XCxRWcZV
>481
できました!、ありがとうございます。
'を'""'で括るのですね
なんで\でエスケープにならないんでしょうね
0484デフォルトの名無しさん垢版2019/08/30(金) 18:04:26.61ID:XCxRWcZV
パーサーも一度使ってみたんですが
<p>hoge</p><p>hoge</p>
pタグが一行に2つあると誤作動したりするんですよね
0485デフォルトの名無しさん垢版2019/08/30(金) 23:22:18.80ID:fIMZQtfT
その誤作動がパーサーのせいかどうかは判らないが、少なくとも
HTML::Parser でそんなことは起こらないから安心してほしい。
たとえばテキスト部分だけを出力したいならこんな感じでできる。

my $parser = HTML::Parser->new(
text_h => [sub { print( $_[0]) },'text'],
);
$parser->parse_file( \*STDIN);
0486デフォルトの名無しさん垢版2019/08/31(土) 00:18:32.04ID:mx6W2BK8
>485
参考になります。
パーサーもいろいろ種類あるみたいですね。

自分の使ってたのはhtml-xml-utilsというやつでした。
0490デフォルトの名無しさん垢版2021/11/19(金) 22:27:21.73ID:v67hT9Zk
二つ以上の空白文字列を
一つの空白に変えたいのですが
うまくいきません。

if($line=~/\s\s+/){
$line=~s/\s\s+/\s/g
print("$line\n")
}
0492デフォルトの名無しさん垢版2021/11/20(土) 20:14:01.04ID:xbsxU5SW
s/\s\s+/ /g;
でうまくいったよ。
そうか、\sって正規表現だから、置換文字列に使うと「perl にそんな定義ないで!」ってなるのか。
これは俺も気を付けよう。
0493デフォルトの名無しさん垢版2021/11/20(土) 20:36:42.09ID:xbsxU5SW
置換といえばこのまえ、JSONで取得したUnicodeを表示したくて、
\u3042 → \N{U+3042}
に置換しようとしたけど、できなかった。
\N{U+ }←ここにはリテラルしか書けないのかな。
0494デフォルトの名無しさん垢版2021/12/14(火) 19:15:14.22ID:LP8Fmqr9
if文で真偽値を判定するのってどうやるの?

hoge() or die("Error\n");
ってなってた(hoge()の戻り値が魏ならエラー)のを標準出力したくて

my $a = hoge();
if( ! $a ){ print("Error\n"); exit $!; }
みたいにしたんだけど、if文の書き方ってこんなんで良いの?
0495デフォルトの名無しさん垢版2021/12/25(土) 19:09:39.02ID:pJ3Bii8w
>>494
0を返しても、0といb、文字(アスキーコード0x30)として扱われたりするから、俺は
if(scalar($a)) {
とか
if($a eq 0) {
とかするよ。
0496デフォルトの名無しさん垢版2021/12/25(土) 20:31:09.16ID:62MjaTIU
>>494
良い。

! で条件反転させるんだったら unless 使っても良いと思うけどね。
unless ($a) { ... } みたいに。
0498494ではない垢版2021/12/30(木) 08:07:22.12ID:j5bdR14I
>>495
マジか。
my $a = hoge();
において、左辺が 0、右辺が 0x30 になるのは、言語としてぶっ壊れているんじゃね?
0502デフォルトの名無しさん垢版2022/03/27(日) 23:43:39.11ID:TRkpHzjA
>>497
じゃあどうすればいいの?
0504デフォルトの名無しさん垢版2022/06/11(土) 13:31:52.57ID:XcUjU1KU
hoge()が0を返しうるかどうかもわからんと思うのだが

>元の
>hoge() or die("Error\n");
>が問題なく動いてるなら

という前提の下で >>495 の配慮に意味があるの? >>496 で十分

hoge() or が動くという前提を無視するとして
もしもhoge()が0を含む数値か失敗を返すなら(空文字を含む文字列か失敗でもいい)
失敗にundefを返してdefinedで受けるのがフツー
0505デフォルトの名無しさん垢版2023/12/15(金) 06:59:42.19ID:aRdlBUAD
$_ ← これ、なんて読む?

perlが発祥ってわけでもないそうだが(bashとかにもあるんだってね)、ガチのドザなので
俺は内心ドルバーって呼んでる
0506デフォルトの名無しさん垢版2023/12/19(火) 00:32:16.33ID:LgO8Ui43
ドル・アンダーバーじゃないかな。
設定によってはチルダの代わりにトップバーってのがあったから、それと区別するのにアンダーって言ってた気がする。
0507505垢版2023/12/21(木) 12:15:47.33ID:nsa/DjJa
おつあり
そういやそんなの(トップバー)あったねえ なるほど
0509デフォルトの名無しさん垢版2024/03/03(日) 23:39:10.39ID:1cRqRnnX
なつかしのcgiゲームを設置したくてperlを触ってるのですが、今の時代でもcgiゲームはサーバーへの負荷は大きいのでしょうか?(昔はよくゲームの設置が禁止されてましたが)
perlと関係なかったらすみません…
0510デフォルトの名無しさん垢版2024/03/16(土) 03:41:28.53ID:I49Gallj
StrawberryPerlで

$str='あ';
if ($str =~ /^[あいう]$/) {print("match\n");}

を実行してみるとマッチしてくれません
/^(あ|い|う)$/ ならマッチするのですが
古いPerl4のjperlなら /^[あいう]$/ でもマッチします
やはりこれはStrawberryPerlのバグ(または仕様)なのでしょうか
0514デフォルトの名無しさん垢版2024/03/16(土) 11:57:07.41ID:Xoe9pkvE
>>511
レスどうもです
Shift-JISの環境で正しく2とカウントされてます
前記はあくまで例ですので全角文字なら他の文字でもこうなるみたいで
ひらがなにマッチさせたいわけではないんです
0515デフォルトの名無しさん垢版2024/03/16(土) 15:20:26.94ID:e8kHlvhU
少なくともperl5.8以降の文字クラスはuse utf8;前提になっててlengthが1じゃないとだめじゃね?
0517デフォルトの名無しさん垢版2024/03/24(日) 16:38:15.53ID:gHSiAGjm
Windows では Filter::Encoding いれて使ってた
スクリプトは utf-8 で書いて use utf8 してたけど
コマンドラインでは -MFilter::Encoding=cp932 とか
レスを投稿する


ニューススポーツなんでも実況