Pythonのお勉強 Part73

2024/06/06(木) 08:48:10.07

!extend:default:vvvvv:1000:1024
!extend:default:vvvvv:1000:1024
↑スレ立てる毎に減るので、減ってたら３つに補充すること。

・当スレにRubyのソースコード類を書くことを禁ず
・Ruby等、Pythonではないプログラミング言語での回答類・質問を書くのも禁止
・「Ruby では」「Rubyでは」「Rails」正規表現→「^クソチョンw$」をNGワード登録推奨
・エラーを解決したいときは、かならず
エラー文（勝手に省略orスクショうｐ等の横着禁止）と
おま環（Pythonのバージョン番号＋OS名とバージョン＋IDE名）を書け。

※前スレ
Pythonのお勉強 Part72
https://mevius.5ch.net/test/read.cgi/tech/1703659345/

VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

2024/08/27(火) 16:20:43.45

>>749
なるほどやってみるか

2024/08/27(火) 19:17:56.22

大事なのはPythonで何やるかだろう
簡単なタスクを自動化するみたいなレベルなら四則演算できるレベルで十分

2024/08/27(火) 19:34:11.22

プログラムはロジックで、数学は抽象化だからな
必要な素養が全然違う

2024/08/27(火) 20:18:30.22

ロジックは分野関係なく当たり前の素養
挙げるとしたらモデル化能力
それには抽象化能力ないとね

2024/08/27(火) 20:27:14.51

手計算で３日かかるの数秒で出来るのええやん

2024/08/27(火) 20:31:30.23

一般社会のロジックとプログラムのロジックは別物
例外を一切認めないようなrigidなロジックはプログラム特有

2024/08/29(木) 09:40:06.31

良きに計らえ(シャチョーさん)

2024/08/29(木) 15:55:49.43

import re
s = 'abc\\n'
print(re.search('a(.+)\\\\n', s).groups()[0]) # bc
print(re.search('a(.+)\\n', s).groups()[0]) # error

何故こんな挙動に?

2024/08/29(木) 16:35:29.97

>757
>>> len('abc\\n')
5
>>> len('abc\n')
4
>>> len(r"abc\n")
5
https://docs.python.org/ja/3.11/library/re.html#raw-string-notation
正規表現リテラルに関しては3番目のraw stringで書いた方がいい

2024/08/29(木) 16:55:49.87

import re
s = 'abc\\n'
print(re.search(r'a(.+)\\n', s).groups()[0]) # bc
print(re.search(r'a(.+)\n', s).groups()[0]) # error

rで書いてもおかしい気がするんだよな
rなんだから\1個でいい筈なのに

2024/08/29(木) 18:16:38.86

Pythonのインタープリタが要求するバックスラッシュのエスケープと
正規表現が要求するバックスラッシュのエスケープと
二重にエスケープが必要だから

re.search(r'a(.+)\n', s)は改行コードの`\n`にマッチ
re.search(r’a(.+)\\n’, s)はバックスラッシュ+nという文字列にマッチ
正規表現エンジンに`\n`は改行コードじゃないよと伝えるのに
バックスラッシュをエスケープする必要がある

2024/08/29(木) 18:39:37.30

s = 'abc\n' # abc+改行の4文字
じゃないの？ってことなんだけど

2024/08/29(木) 18:42:15.14

rで書いてるなら、文字列中に\nを改行として書くことは諦めろとしか
rとはすべてがエスケープされてるモードなんだからエスケープ要らない約束の筈

2024/08/29(木) 21:44:40.32

>>762
正規表現ではバックスラッシュが特別なエスケープ文字として扱われるというのは理解してる？

それを理解してれば検索対象文字列に存在するバックスラッシュそのものにマッチさせるには
正規表現としてエスケープしたバックスラッシュ(=バックスラッシュ2つ)が必要というのはわかるよね？

s = 'abc\\n’にはバックスラッシュそのものが含まれてて
それにマッチさせたいわけだから正規表現として`\\`が必要になる
この正規表現でのエスケープはPythonが文字列を解釈するときのエスケープとは別のもの

2024/08/29(木) 21:50:09.32

一応書いておくけどバックスラッシュの二重エスケープが必要なのはPythonに限らずどの言語でも同じ
raw stringや正規表現リテラルを使った場合は一重エスケープでよくなる

2024/08/29(木) 21:57:35.86

うちの店では昔っからこうなんだよと強弁されても
rawってのは生っていう意味で、未加工なんだよ
\nを改行の意味に変換したら加工しとるやろ

2024/08/29(木) 22:55:26.96

文字列の表現としてはrawでも、それを渡した先でどう扱われるかは別問題
という話なんだろうな
正規表現ですらなくて、誰かの作った関数で\nと連続してたらそれは改行文字として扱います
というお約束ならそれに従うしかない

\nを改行に変換するかもしれない仕組みを2回通すので、
変換されない為には2重のエスケープが必要
3回通すならもっと必要
raw表現はエスケープを1回減らす効果しか無い

2024/08/29(木) 23:45:40.59

>>763
その指摘は正規表現の話ではない

2024/08/29(木) 23:52:54.64

raw文字列というpythonの仕様と、
reというpython標準のライブラリがごっちゃになって、
rawと書いたら受け取った人もrawとして扱う筈、というのはただの思いこみで、
受け取った側は元がどう書かれてたかなんか知る由もなくただのstrとして受け取って、
そこから独自の字句解釈を開始する、というだけの話

2024/08/30(金) 00:50:19.40

>>765
>\nを改行の意味に変換したら加工しとるやろ
raw文字列は\nを改行文字としては扱ってないやろ
バックスラッシュとnという2文字を渡された正規表現エンジンがそれを改行文字として扱う
それが正規表現のルール

2024/08/30(金) 02:17:10.13

そもそもrawデータというのは文字として決めつけて処理するものではなく、バイナリーデータとして扱って処理するものです。

2024/08/30(金) 07:42:30.12

お前等hexで話せよ。分かりにくい。

6162 635c 6e abc\n
6162 630a　　abc.

2024/08/30(金) 09:24:30.71

import re
s = r'abc\\n'
print(re.search('a(.+)\\n', s).groups()[0]) # !
print(re.search('a(.+)\n', s).groups()[0]) # !!!

2024/08/30(金) 09:26:08.10

import re
s = r'abc\n'
print(re.search('a(.+)\\n', s).groups()[0]) # !
print(re.search('a(.+)\n', s).groups()[0]) # !!!

2024/08/30(金) 09:27:35.22

import re
s = r'abc\\n'
print(re.search(r'a(.+)\\n', s).groups()[0]) # !
print(re.search(r'a(.+)\n', s).groups()[0]) # !!!

2024/08/30(金) 09:27:52.88

import re
s = r'abc\n'
print(re.search(r'a(.+)\\n', s).groups()[0]) # !
print(re.search(r'a(.+)\n', s).groups()[0]) # !!!

2024/08/31(土) 10:12:39.92

webページの取得をconcurrent.futuresで複数同時に回す
取得自体はseleniumで行う
毎回ログインするのを避ける為、ログイン済のdriverをmax_workers分用意する

そこまではいいとして、submitする時あるいはsubmit先で、
今どのdriverが使えるか判断しないといけない
自前でセマフォ作ってもいいけど、そんな管理もしてくれる何かがありそうな気がする

2024/08/31(土) 13:22:35.58

関数やクラスにインデックスの指す中身の値でなく“インデックス指定”を渡したいのですがうまく出来ません
こんな場合どういうような考え方があるのでしょう（タプルでインデックス数字を渡す？）

# [[0,0,0,0,0],[[0,0,0,0,0]]
alist = [[0]*5]*2

# 値ではなく箱の位置を意図してるが…
hako = alist[0][3]

def change(b):
b = 3
return

change(hako)

print(alist) # 全部0のまま

change(alist[0][4])

print(alist) # こちらも全部0

実際にはrpgゲームの様々のステートやフラグやそのセーブを管理するクラスに
alist[6][15]（王さまと喋ったとか）を1にするといった仕事をさせたいと試行錯誤しています
喋る関数、戦う関数やクラスのとこから発生しだいリストを直で操作すればいいのだけど
State.change(インデックス, 1)みたく一元的にやりたいとクラスを作ってきています
目的で位置の固定されたフラグなのでメニューを開いているかState.menu(1)、State.kingtalked(1)などとしその先のクラスの関数で位置を決め撃ちするのが良いのかななどと困って考えています

2024/08/31(土) 13:25:10.84

しまった質問スレの存在を忘れてましたごめんなさい移動します>>3

2024/08/31(土) 14:06:22.04

>>777

ごちゃごちゃ、わからんわ

2024/08/31(土) 14:44:18.13

>>779
最下段の文は無視してもらって
プログラム部分で
[[0,0,0,3,0][0,0,0,0,0]]
[[0,0,0,3,3][0,0,0,0,0]]なprint結果となる関数への渡し方や手法がしりたい
「書き換えたい多次元リストのインデックス」を関数などに渡しそこで処理する方法

書いてるうちに設計からおかしい気がしてきた
せっかくクラスを勉強してるので無理やりそこでまとめて（意味なく）処理したがってる

なにかあれば聞きたいけど質問は取り下げます

2024/08/31(土) 15:51:47.51

無理なのでインデックスを渡すしかない

2024/08/31(土) 16:07:04.72

インデックスといえば
l = [1, 2, 3]
l.index(2)
で1を得るけど、これの計算コストってどんなもんなんだろ
リストだけど固定なのが判ってたら、一旦逆引きのテーブルを作った方が有利なのか、
気にするほどでもないのか

2024/08/31(土) 16:18:16.80

https://github.com/python/cpython/blob/5332d989af45378e6ae99aeda72bfa82042b8659/Objects/listobject.c#L3181
ループするからO(n)かかる
それが問題になるならdictに突っ込むとかして高速化すればいい

2024/08/31(土) 16:31:39.30

思ったより何も工夫してなかった
困ったら高速化しよう
まあ、困らないんだけど

2024/08/31(土) 17:34:03.31

>>777
2次元で固定ならタプルで渡す
def modify(alist, indices, new_value):
　alist[indices[0]][indices[1]] = new_value

任意の深さに対応したいならループさせる
(エラーになる状況が増えるので用途に合わせて対応が必要)
def modify(alist, indices, new_value):
　element = alist
　for i in indices[:-1]:
　　element = element[i]
　element[indices[-1]] = new_value

あとalist = [[0]*5]*2 の初期化方法は要注意
alist[0][3] = 3とすると[[0, 0, 0, 3, 0], [0, 0, 0, 3, 0]]になるから

2024/08/31(土) 18:14:58.61

>>785
ありがとう！固定要素数じゃない場合の例が思案に明け暮れていたとこで、助かります！
丁度さっき、そうだ受け取ったstrに応じる形で"関数側のcase match文"で
決められた格納場所に同じく受け取ったvalueを書き込もう、としていました
コマンドウィンドウを開いているか否か0or1みたいなものを
StatsクラスのStats.write("commandopen", 1)、これの第一引数をcaseでふるいにかけ書き込むべきインデックスに辿り着く感じ…(>_<)

2024/08/31(土) 18:51:32.93

{“commandopen”: 1}がkey/valueなら
素直にdictionaryで状態管理したほうがいいんじゃないかな
case文やインデックス変換なくせるよ

2024/08/31(土) 18:59:52.21

たしかに…辞書やjsonといった物の扱いに恐怖心があって無意識に避けてたかも

2024/09/01(日) 08:53:52.90

前回と今回のid一覧があって、
今回追加分のidに該当するものがなければ終了
みたいな処理をどう書こうか考えてて、
結局setの演算にしたら1行になった
setむっさ使える

2024/09/02(月) 14:46:18.35

テキストをフィルターしていて、
特定の行があったら、その前後の行も削除して出力したい

後ろも削除はiterでnext()すれば飛ばせるけど、
すでに出力しちゃったものを無かったことにするのが難しい
一旦全部バッファに溜めておくしか無いのかな

2024/09/02(月) 16:47:53.26

全部じゃなく
1行バッファして次が来たら出力する部品でいいんでは？
もちろんバッファ削除とフラッシュの機能もつける

2024/09/02(月) 17:05:31.51

削除する必要が最大1行ならいいけど、実際には2行のケースもある

2024/09/02(月) 17:13:39.22

理解力というか応用力低すぎて草

2024/09/02(月) 17:30:55.08

んー、そんな小手先で回避してたらすぐ行き詰まるよ

2024/09/02(月) 17:52:44.67

1回目は削除インデックスを確保するだけで2回目のフィルタリングでそのインデックスを削除する
何行削除でも可能

2024/09/02(月) 18:08:44.35

なるほど2パスにするのか
入力はファイルなのでそれで十分だし高速だしメモリも食わない
ストリームにまで対応可能な方法は多分ない

2024/09/02(月) 18:18:02.18

>>790
俺にはこの話題の sed コマンドは全く理解できないが、解るなら python に移植してみてはどうだ。
https://mevius.5ch.net/test/read.cgi/unix/1085730992/593-

2024/09/02(月) 18:18:35.06

dpでやるやつじゃね？

2024/09/02(月) 18:24:28.25

sed的にやろうとすると、ファイル全体を読み込んで検索して、というやり方と同じなので、
メモリはファイルサイズだけ食うことになる
sedはそれをストリームに対してやるのでメモリ食わない

メモリ節約するなら最低限だけ読みながら、という処理になるけど、
最低限が何行なのかは条件次第なので条件の解析までやらないといけなくて、
ツブシの効かないコードを頑張って書くことになる

2024/09/02(月) 18:39:20.59

主に最適化の理由で出力のバッファリングはPython内外で透過的に行われてるし
そこに出力遅延するio.Writer追加するだけの話
バッファはいくらでも動的に確保したらいい
小手先らしいけどそれで必要十分

2024/09/02(月) 18:49:11.43

本人がバッファリングが必要な範囲を抽象化して捉えられてないから1行とか2行とかって説明になるんだろ

最近出現頻度の高い末尾54さんはいつもこのパターン

2024/09/02(月) 18:53:10.49

前後の行としか書いてないけどな
前後n行だよ

バッファリングするのはいいとして、フラッシュのタイミングが不明だとどうしようもない
前後n行に絶対引っかからない行が定義できない

2024/09/02(月) 18:56:45.68

前の全部の行が削除対象になり得ることを考えるとストリームにやるなら全部バッファに溜めるしかなさそうだ

2024/09/03(火) 15:35:20.10

>>0790

https://ideone.com/R9UweU

前後N行消したいなら、前のN行をバッファできれば充分。1パスでいけるよ

2024/09/03(火) 21:07:40.33

N行が全行－1行になることもあるから1パスだとメモリ食ってヤダって話みたいよ

そもそもの問題認識が間違ってるよね

2024/09/03(火) 21:28:25.04

今やメモリなんて膨大にあるから、1億行でも平気
そんなこと気にしないのが簡単でかつ現実的
一応気にして2パスにするのも、比較的簡単
中途半端に気にして対応すると手間がかかる上に不完全になる

2024/09/03(火) 22:33:39.88

じゃあ何を悩んでたの?
よく分かんねーけど能書きの前に常識として謝辞のひとことくらい述べたらどうかね

2024/09/03(火) 22:36:18.67

なんか知らんけど、勉強する気のない奴が紛れ込んでるんだよな

2024/09/04(水) 10:07:28.75

slenium使ってWebページの巡回してますが、CSSセレクターやxpathが日によって変動する場合の対処法をご教授願えれば幸いに存じ上げマッスルマッスル。

2024/09/04(水) 13:21:36.89

フルで指定しなくても部分でもいけるので、変わらない部分を使う

2024/09/04(水) 16:46:15.23

またストリームっぽい話
デリミタ行があって、それで区切った単位で処理する
デリミタを見つけたら処理、みたいにすると、デリミタ無しで終了した場合に最後が抜ける

元データの方で最後にもデリミタを入れる
ループを抜けた後に同じ処理を追加する
デリミタ or EOF みたいな判定にする
等の対応があって、EOFがスマートそう

でもEOFの検出が大変
ファイルを1行ずつ読んでても次を読んでみないと判らないし、
iterでも例外を起こすとか、リストが対象だったらコピーしといてpopしていって空か見るとか

最後まで行ったら自動で終わる処理はとても書きやすいのに、
最後の処理の最中に最後だと判定するのが困難

2024/09/04(水) 16:53:37.40

日本語を見ればプログラミング適性がないのがよくわかる

2024/09/04(水) 17:15:00.32

デリミタ行以外で終端になったら
追加でデリミタ行を返すイテレータを書くだけ

2024/09/04(水) 17:24:08.15

データ数nでデリミタ数n-1、という気持ち悪い状態が自然によくあるんだよな
joinで結合して、splitで分解するのと同様に、
デリミタで分解する処理を最初に入れるのが多分正解
最後のデリミタがあってもなくてもいいようにしないといけない

2024/09/04(水) 17:28:38.80

分解する処理が全く同じ問題にぶつかるんですが

2024/09/04(水) 17:30:47.74

>>810
ありがつお！フルで指定しないとエラーでます。
ifとか使ってあがいてみマッスルマッスル！

2024/09/04(水) 17:33:35.02

perlだったら、f = open(file) みたいなので取得したファイルオブジェクトに対して
eof(f) を見たら終端に達してるかどうかが判る
pythonでもf.eof() みたいなのを作っといてくれればいいのに無いというのは、
そんなプログラムは書くなという明示的な意図なんだろうな

便利なのになー
なんで駄目なんだろ

2024/09/04(水) 17:54:41.94

仕方ないからsplitのlist版を汎用で書いて、自分用ライブラリに入れとこう
これも意地悪で存在しないのか?

2024/09/04(水) 18:09:05.10

more_itertools.split_ナントカ

2024/09/04(水) 19:07:28.42

>>0811

1行単位で読みつつ複数行単位で処理したいループのあるあるだね

Pythonならイテレータやジェネレータを使うかも
https://ideone.com/qSuDAt

なるほどジェネレータの処理が“全く同じ問題にぶつか”ってて、
この例ではそこを「ループを抜けた後に同じ処理を追加する」でやってることになるかな

まあでも、泥臭いことをここに押し付けて、メインのループがブロック単位でまわせるのがよい
だいたい、ふだん行単位でまわせるのもライブラリが泥臭いことしてるおかげだし

2024/09/04(水) 19:46:26.52

https://i.imgur.com/wMdI3xj.png
真似っこ
buf.clear() まで真似したら見事にバグる

2024/09/04(水) 20:41:57.33

こういうバカに産まれなくてホントに良かったよ
CSVなんかでも最後にカンマあるとかねーとかでうんうん言うんかな

2024/09/04(水) 20:59:08.55

セパレータで区切って1行になってたら最後にはセパレータがあってほしくない
文字列を改行で区切って並べるなら、最後にも改行があって欲しい

等価なことをやってる筈なのに、区切りが改行の時だけ例外なんだよな
'\n'.join(l) + '\n'
みたいなことをやる羽目になって、それが正しいんだけど不便

2024/09/05(木) 00:04:43.15

汚れ仕事になると分かってるなら
そこだけ分離するな

2024/09/05(木) 00:12:14.06

>>811
readerにfinalizeを用意させれば良い

2024/09/05(木) 00:14:42.60

>>822
range(start, end) で end - 1 までになるのが納得いかないとか言い出しそうだよね

2024/09/05(木) 12:37:32.12

これが汚れ仕事になってしまうのは、プログラム的な正しさと人間の正しさの感覚の齟齬があるんだろうな

pascalで行末にセミコロンを付ける
でもこれはセパレータなので、最後の行にも付けるとエラーにされる
ふざけんなということで、Cではセパレータではなく行末記号になった
今度は最後にも付けないとエラー

a = [
　aaa,
　bbb,
　ccc,
]
最後のコンマは要らないけど、あった方が書きやすいし、勝手にヌル要素が追加されたりもしない
無視されるだけ

a = func(a, b, c,)
これも許容される
でも気持ち悪いから、多分こうは書かない
最後の余分なセパレータに対する統一的な方針は無い

2024/09/05(木) 13:31:44.17

>>0823
「最後にもセパレータがある」は矛盾してるよ
最後のセパレータの次には空の要素があるとみなすべき

それぞれの要素の後に記号をつける場合その記号は「ターミネータ」
記号は改行だけとは限らず「foo;bar;baz;」とかでもよい

ターミネータ式では「foo;bar;baz」は厳密には ["foo", "bar"] にゴミがついてるとみなすけど、最後の要素とみなすことも多い。それでも「foo;bar;」で最後に空の要素があるとはみなさないのでセパレータとは違う

splitやjoinはセパレータ式を扱うものだから、ターミネータ式の分割と結合に使うとき小細工が必要なのは仕方ない

>>0823 の「等価な筈なのに〜」だの「セパレータが改行のときだけ」だのも区別がついてない
「ターミネータの場合は」なの

# セパレータをカンマからタブに
csv = "foo,bar,baz"
list = csv.split(",")
tsv = "\t".join(list)

# ターミネータをセミコロンから改行に
stv = "foo;bar;baz;"
list = stv.split(";")[:-1] # 小細工
ltv = "\n".join(ltv) + "\n" # 小細工

2024/09/05(木) 14:35:40.58

セパレータなのか終端記号なのかというところに
統一的な見解を作るのは無理だろう

2024/09/05(木) 15:30:26.64

>>820
yieldしたbufをclearしたらアカンやろ

>>821
偉そうなこと書いててもコードはこのレベルなのかよｗ
勘弁してくれよ

>>828
Pythonのoptional trailing commaとかは
ターミネータではなくセパレータだよ
文法としてそれが規定されてて
オプショナルセパレータを処理する仕組みがあるかどうか

2024/09/05(木) 23:28:48.64

これも終端がいい加減な例の一つ
https://5ch.net/
https://5ch.net

2024/09/05(木) 23:37:18.89

それ終端なのかよURIの記法ってそうだっけパスの頭じゃねーの?

2024/09/05(木) 23:37:57.01

urlもそうだし、パスを分解する時も、なんだこの不規則はと悩む
C:/
は/が無いと意味不明になる
でも
C:/bin/
C:/bin
はどっちもあり
ファイルとディレクトリを同列に扱いたいというスタンスからすると、末尾の/はあって欲しくない
でもルートの場合は必要
どっちかに統一しないと、
f'{path}/{filename}'
みたいに書けない
仕方ないので、あってもなくてもいいけど、あったら無視する
という汚れ仕事吸収層に任せることに

2024/09/06(金) 00:52:19.42

urlといいうか、*nixはスラッシュ止が本来なんだっけ？

それにしてもファイルパスは意外と厄介
rsyncみたいに、スラッシュがあるかないかで振る舞いが全く異なるものもあるし

2024/09/06(金) 00:54:13.81

最初の/は、ルートではなく絶対パスの意味
長さゼロの文字列はカレントディレクトリかなぁ

ドライブ指定のみ
C:
ドライブ指定＋絶対パス指定
C:/
ドライブ指定＋相対パス指定
C:.

C:/Users>cd /d D:/
D:/>cd /d C:.///.//yamada///Music//
C:/Users/yamada/Music>
となるし

2024/09/06(金) 08:29:25.15

>>830
820 と 828 にツッコミありがとそのとおりだね

いずれにせよ811や823の参考になればと思ったけれど
833までみるとプログラミングやPythonの勉強よりは別のことをしたいみたいだ

2024/09/06(金) 12:59:23.01

もうメンテナンスしかやることねえ・・

2024/09/06(金) 13:05:03.70

>>837

うん？

まぁ、そんなもんだ

2024/09/06(金) 15:15:22.20

ほぼ知識ゼロの状態からPythonでアプリを作るのは無謀？

2024/09/06(金) 16:28:40.66

知識ゼロにも色々あってな
プログラミング自体やったことがないのか
Pythonでやったことがないだけなのか

2024/09/06(金) 16:35:05.78

PC触ったことないとか

2024/09/06(金) 16:43:13.12

>>839

できる

どの書籍、選び方次第

2024/09/06(金) 16:43:15.17

プログラミングの知識はほぼゼロ
unreal engineのC++に何が書いてあるのかわからない
コードの書き方の知識もほぼゼロ

2024/09/06(金) 16:44:13.37

>>842
良い書籍や動画を教えてくれると助かる

2024/09/06(金) 16:47:34.80

組みたいプログラムはオレの知る限り、おそらく一般には採用されてないけど、そんなに複雑なものでもないと思う

なので、信頼してる人しか組みたいプログラムは教えたくない

2024/09/06(金) 16:52:45.07

>>844
>>736

2024/09/06(金) 16:56:57.72

>>846
ありがとう
登録した！
書籍もあると助かります

2024/09/06(金) 16:58:56.36

>>846
どのリストから見れば良い？w

2024/09/06(金) 17:01:38.70

UE使う時にvisual studio入れた
サッパリだったけど…