くだすれPython(超初心者用) その38

**デフォルトの名無しさん** · 2018/05/17(木) 11:09:14.54

このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だか分からない質問を勇気を持って書き込むスレッドです。
へび使いが優しくコメントを返しますが、お礼は Python の布教と初心者の救済をお願いします。

エラーを解決したいときはエラー表示や環境(バージョン/IDE or command line)を略さずに書き込んで下さい。
騙りが頻発しています。質問する方は一時的なトリップをつけることを検討して下さい。
次スレは >>985 辺りで

前スレ
くだすれPython(超初心者用) その37
http://mevius.5ch.net/test/read.cgi/tech/1521271945/

**パイソン初心者** · 2018/06/17(日) 22:36:30.93

目当てのサイトから必要な情報を抜き出し、csvに保存するところまではできたのですが、実際にやりたいことまで知恵が及ばず、こちらで質問することにしました。

現在のコード（sample.py）
──────────
import requests, bs4
import csv

import requests, bs4
res = requests.get('https://news.yahoo.co.jp/pickup/6286588')
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text, "html.parser")
elems = soup.select('h2')
for elem in elems:
print(elem)

with open('news.csv', 'w', encoding='CP932', errors='ignore') as f:
writer = csv.writer(f)
writer.writerows(elems)
──────────
※URLとh2に関しては質問用です。

**212** · 2018/06/17(日) 22:37:08.00

>>212 続き

上記コードで１つのURLの"h2"が取得でき、"news.csv”に保存ができています。
でも本当は、情報を取得したいURLが大量あるのです。

URLは違うけど、同じサイトの中で、hmtlの骨組みが同じなので、アクセスするURLさえ変えることができれば他はそのままでいいです。

そこで、「URLがリスト化されたファイル"urllist.txt"の内容を読み込んで、一行目のURLから順々にアクセスして"h2"を取得し、csvに書き込んで保存するコード」というイメージでコーディングしたいと思っています。

※urllist.txtの内容
https://news.yahoo.co.jp/pickup/6286588
https://news.yahoo.co.jp/pickup/6286594
https://news.yahoo.co.jp/pickup/6286582

"requests.get"で指定するURLを別のファイルから読み込んで指定する方法、同じ処理を繰り返す方法、などで調べたのですが、必要な回答に辿り着くことができませんでした。

正解例がわかる方、どなたかお願いしますm(__)m

※urllist.txtはテキストファイルじゃなくてもいいです。

**デフォルトの名無しさん** · 2018/06/17(日) 23:47:02.24

まずファイルを読み込んで一行ずつ使用する方法と
関数を定義して処理を再利用する方法を覚えたら
https://docs.python.jp/3/tutorial/inputoutput.html#methods-of-file-objects
https://docs.python.jp/3/tutorial/controlflow.html#defining-functions

つーかその辺が分からずにそこまで行ったのはある意味凄いね

**パイソン初心者** · 2018/06/18(月) 00:08:19.75

>>214
ありがとう。頑張ります。

**デフォルトの名無しさん** · 2018/06/18(月) 00:21:43.97

３つのコードしか知らないのに優れた楽曲をつくるやつもいるからな

**パイソン初心者** · 2018/06/18(月) 00:38:30.76

pythonは今日勉強を始めたばかりです。
プログラム自体が初めてですが、楽しいですね。
とても好きになりました。

解決したらまた書き込みにきますm(_ _)m

**デフォルトの名無しさん** · 2018/06/18(月) 07:48:32.99

3つのコードでGoogleアシスタント作りました。

**210** · 2018/06/18(月) 08:53:40.84

自己解決しました
URLに&が含まれているとエラーになる件は&を^&に置換して渡せばよかったようです
URLに連番を付加する件は単純に関数の作り方が間違っていました

**デフォルトの名無しさん** · 2018/06/18(月) 15:22:22.29

スクレイピングでろくなサイトがないから、ためしに本買ったらわかりやすくて最高ー
当たり前だけど本重要だな

**デフォルトの名無しさん** · 2018/06/18(月) 16:32:39.69

その本の名前をを書けよ無能

**デフォルトの名無しさん** · 2018/06/18(月) 17:28:21.58

>>219
解決してよかったぬ

**デフォルトの名無しさん** · 2018/06/18(月) 20:00:42.72

Rubyによるクローラー開発技法巡回・解析機能の実装と21の運用例、
佐々木拓郎・るびきち、2014

よく知らないけど、Python なら、なでしこの作者、クジラ飛行机の本か？

そう言えば、巨匠がフレームワークの本を出したよ。
先に、無料のRails チュートリアルをやった方が良いと思うけど

Python Django 超入門、掌田津耶乃、2018

**デフォルトの名無しさん** · 2018/06/18(月) 20:24:00.31

発達障害はチンパンジーアイちゃんと小粋なトークしてろ

**デフォルトの名無しさん** · 2018/06/18(月) 21:41:23.20

ruby信者ホント気持ち悪い

**212** · 2018/06/18(月) 22:34:36.18

解決しました。引き続き精進します。

**デフォルトの名無しさん** · 2018/06/19(火) 04:23:54.29

スクレイピングする時に、
デフォルトのモジュールのみで、パースも正規表現駆使して拾いながら
手続きの流れのままにズラズラと構成しちゃダメかい？

**デフォルトの名無しさん** · 2018/06/19(火) 05:01:01.25

<1><2></2></1>

正規表現は、木構造に対応できない。
<1>と</2>が、マッチしてしまう

jQuery, Ruby のNokogiri では、CSS セレクターを使う。
XPath よりも良い

**デフォルトの名無しさん** · 2018/06/19(火) 05:59:30.68

前後の文字列で肝心のデータ部分を特定・取得できさえすればいい場合は、
正規表現でもそんなには困らないんだけどね。

**デフォルトの名無しさん** · 2018/06/19(火) 09:16:28.04

今時だれがrubyなんて使ってんだ？
PythonとBeautiful Soupでやるだろ。
本屋でもこの組み合わせばかり。
nokogiri？どころかruby自体の本すらない。

**デフォルトの名無しさん** · 2018/06/19(火) 09:57:15.89

seleniumでchromeのヘッドレスでダウンロードしたいんだけどどうしたらいいの？

**デフォルトの名無しさん** · 2018/06/19(火) 10:38:55.09

>>231
ヘッドレス起動の仕方は↓とか嫁
tps://qiita.com/orangain/items/db4594113c04e8801aad
ダウンロードはzipファイルなら↓あたりを参考に
tp://toolsqa.com/selenium-webdriver/c-sharp/download-file-using-selenium-and-verifying/

**デフォルトの名無しさん** · 2018/06/19(火) 10:41:50.97

>>232追記
Cからの書き換えなんていやだ！というなら↓とかみれ
tps://a-zumi.net/python-selenium-save-to-disk/
tps://qiita.com/py_maro/items/6e79e4049677cf43c398

**デフォルトの名無しさん** · 2018/06/19(火) 10:57:31.22

>>233
ありがとう
見てみます

**デフォルトの名無しさん** · 2018/06/19(火) 11:14:22.26

>>233
すみません普通にならダウンロードはできてるんだけど
ヘッドレスモードにするとダウンロードできなくなるんです

**デフォルトの名無しさん** · 2018/06/19(火) 12:24:26.47

ほなヘッドフルでええやん
細かいことは気にすんな

**デフォルトの名無しさん** · 2018/06/19(火) 19:56:07.63

PythonのIDLEの画面をクリアすることってできますか？

**デフォルトの名無しさん** · 2018/06/19(火) 20:02:06.90

>>237
ctrl + Lでできる

**デフォルトの名無しさん** · 2018/06/19(火) 23:18:57.08

Ruby では、--headless オプション

options = Selenium::WebDriver::Chrome::Options.new
options.add_argument('--headless')

driver = Selenium::WebDriver.for(:chrome, options: options)

driver.navigate.to "ここにURL"

**デフォルトの名無しさん** · 2018/06/20(水) 00:14:42.51

>>239
python2でもpython3でも動きませんでした。
他の方お願いします

**デフォルトの名無しさん** · 2018/06/20(水) 07:19:49.66

>>209
俺と同じ感想の人が居てた、python大好き

**デフォルトの名無しさん** · 2018/06/20(水) 08:12:14.73

やりたいことに集中できるのがPythonの良さなのは同意するけど、便利な既製のデータ構造なんか他の言語にもだいたい用意されてるだろ
Pythonは文法がシンプルで記述の自由度が低く、変な例外的な仕様も少ないから、
どの書き方が美しいかなどというくだらないことをあまり考えなくていいんだよ
その結果、やりたいことに集中できる

**デフォルトの名無しさん** · 2018/06/20(水) 09:59:20.08

C++にもベクターっていう超便利さんが居るじゃん

**デフォルトの名無しさん** · 2018/06/20(水) 12:35:53.89

1円硬貨： 8 枚
5円硬貨： 3 枚
10円硬貨： 2 枚
50円硬貨： 2 枚
100円硬貨： 3 枚

↑の硬貨のセットを持っているとする。

これらの硬貨を使って支払える金額のうち、その支払いに使える硬貨の組合せが
一通りしかないものの数を求めよ。

これを計算するためのプログラムを作ったのですが、正しい答えが出ません。
どこが間違っているのでしょうか？

http://codepad.org/Hyc8E6HM

**デフォルトの名無しさん** · 2018/06/20(水) 12:38:16.91

>>244

http://codepad.org/KYsvalF1

コードは↑こっちを見てください。

**デフォルトの名無しさん** · 2018/06/20(水) 15:34:20.79

>>243
Cの話してるところにC++の話題持ち込むと混乱するからやめて

**デフォルトの名無しさん** · 2018/06/20(水) 16:04:05.44

プログラミング全くの初心者なのですが、beautiful soupというのを学ぶのに一番適している本やWebサイトってどれでしょうか？

**デフォルトの名無しさん** · 2018/06/20(水) 16:29:37.34

ここで聞くのが早い

**デフォルトの名無しさん** · 2018/06/20(水) 18:27:58.86

なにか作リながら覚えたほうがいいよ

**デフォルトの名無しさん** · 2018/06/20(水) 18:37:51.47

>>245
俺には関数部分のコードが正しいのかはわからんのだが、
paysに0が含まれてるからとかってオチじゃないの？

**デフォルトの名無しさん** · 2018/06/20(水) 18:40:48.63

とりあえずPythonによるWebスクレイピングという本買って勉強してみます

**デフォルトの名無しさん** · 2018/06/20(水) 19:36:01.15

まずチュートリアルくらいやってから目的に着手しろ

**デフォルトの名無しさん** · 2018/06/20(水) 19:41:13.26

了解です！

**デフォルトの名無しさん** · 2018/06/20(水) 19:41:29.35

この間その本買ったけれどエキサイト翻訳かと思った

**デフォルトの名無しさん** · 2018/06/20(水) 22:49:52.55

jQuery, Ruby のNokogiri の、CSS セレクターを参照。
XPath よりも良い

なでしこの作者、クジラ飛行机の本は、難しいのか

**デフォルトの名無しさん** · 2018/06/21(木) 00:19:08.94

そんな言い方して初心者がわかるわけねーだろｗ

**デフォルトの名無しさん** · 2018/06/21(木) 00:34:34.36

またrubyスレ荒らしてこなきゃ…

**デフォルトの名無しさん** · 2018/06/21(木) 02:20:29.04

使命感なの？

**デフォルトの名無しさん** · 2018/06/21(木) 09:16:14.27

いいえ、自作自演です

**デフォルトの名無しさん** · 2018/06/21(木) 09:21:58.43

あたまいいな

**デフォルトの名無しさん** · 2018/06/21(木) 10:29:14.72

jythonみたいなやつでpython3のはありますか？

**デフォルトの名無しさん** · 2018/06/21(木) 12:28:34.50

ありません

**デフォルトの名無しさん** · 2018/06/21(木) 14:20:26.85

pypyならあります

**デフォルトの名無しさん** · 2018/06/21(木) 16:04:08.29

>>263
pypyってやつを使えばpython3とjavaを一緒に使えるんですか？

**デフォルトの名無しさん** · 2018/06/21(木) 16:46:24.14

楽観的な解釈をするならばYes
質問者のレベルに合わせて考えるならNo

**デフォルトの名無しさん** · 2018/06/21(木) 18:16:42.62

Anacondaからjupyter notebookを立ち上げてプログラムを起動するとno module named intertoolsというエラーが出ます
中身を確認したり何度かプログラムを動かしていると動作します
数分前まで動いていたプログラムでさえ立ち上げ直後は上記のエラー発生するのですが同様のケースを経験された方はいらっしゃいますか？

**デフォルトの名無しさん** · 2018/06/22(金) 07:26:43.33

ヘルプかマニュアルに書いてある

**デフォルトの名無しさん** · 2018/06/22(金) 09:31:36.57

itertools

**デフォルトの名無しさん** · 2018/06/22(金) 12:16:23.68

指定した値が入っているリスト番地を返すindexって命令がありますけど
あれの正規表現版みたいなのはないですか？

**デフォルトの名無しさん** · 2018/06/22(金) 12:44:11.76

みたいなのってなんやねん

**デフォルトの名無しさん** · 2018/06/22(金) 13:03:23.91

**デフォルトの名無しさん** · 2018/06/22(金) 13:42:50.45

>>269
https://docs.python.jp/3/library/re.html#re.match.start

**デフォルトの名無しさん** · 2018/06/22(金) 14:58:02.62

idx = next(i for i, v in enumerate(hogelist) if re.search(r"hage", v))
こういう事言ってるのかと思った

**デフォルトの名無しさん** · 2018/06/22(金) 16:28:11.91

>>272-273
目的を解決する標準関数はないけど
そのやり方を参考に自作関数を作ればいいわけですね
分かりました。ありがとうございます

**遊園地** · 2018/06/22(金) 21:15:46.77

2,3分で書くと、こんなもんかな。
import re
s = "012abc345def"
m = re.findall(r'[a-z]', s)
for i in m:print(i,re.search(i,s).span())

**遊園地** · 2018/06/22(金) 22:20:43.17

>>244は全部使うと1通りになります。的な？

**遊園地** · 2018/06/22(金) 22:22:53.99

合計金額とか
ない感じ、ですかね。

**デフォルトの名無しさん** · 2018/06/22(金) 22:24:50.81

>>244

解決しました。

http://codepad.org/Qwv8xxB5

**遊園地** · 2018/06/23(土) 09:53:25.33

できてないんじゃない？

50+10+10+1+1=72
50+10+5+5+1+1=72
50+5+5+5+1+1+1+1+1+1+1=72

etc..

**デフォルトの名無しさん** · 2018/06/23(土) 10:34:48.24

71通りになった
問題の解釈を間違ってなければだけど

**デフォルトの名無しさん** · 2018/06/23(土) 11:37:24.13

スクレイピングしたら
requests.exceptions.ConnectionErrorがでて
「既存の接続はリモートホストに強制的に切断されました」って表示されたんだけど
これ相手から弾かれたってことですよね

time.sleep(10) に入れてたんだけど少ないですかね。

**デフォルトの名無しさん** · 2018/06/23(土) 11:47:11.24

サイトによるだろ。株やFXならともかく、普通のサイトだと気が狂ってるとしか思えんフェッチする連中がいるし。

**デフォルトの名無しさん** · 2018/06/23(土) 11:59:31.45

denyされていなくてもサーバーが高負荷になってれば普通に出る
denyされてるのか単なるエラーなのかは切断の傾向から推測するしかない

それなしに、ただ切断されましたと言われても分かんないね

**281** · 2018/06/23(土) 12:44:32.88

>>281
>>282

ありがとう。
もしよければその単語の意味を確認させてほしい。

フェッチ＝データを取り出すこと
deny＝拒否する否定するなど

**デフォルトの名無しさん** · 2018/06/23(土) 13:17:45.77

接続を弾く場合、一般的にはファイヤーウォールやhttpdの機能を使う
それの設定の定番がallow-deny形式のルール

denyされた=ファイヤーウォールやhttpdで接続を拒否するように設定された
と考えて

**281** · 2018/06/23(土) 14:13:39.32

>>285

ありがとう。止まったのは夜中だから機械的にアクセス拒否されたと考えてます。
timesleepの秒数をもっと長くして、あとrondomと組み合わせて、同じ時間感覚でアクセスするのやめるて様子みてみます。

**遊園地** · 2018/06/23(土) 14:24:38.20

初歩的な対処法なら

同じIPアドレスからのアクセスの間隔が常にほぼ同じ秒数間隔の変更
同じIPアドレスから、同じユーザーエージェントで大量にアクセス　IP変更で対処

人間らしくないきっちりしすぎるアクセス　*1

何度もアクセスしてきているのに、セッションクッキーを絶対に送ってこない
＿＿CookieはWEBサーバーが発行し、ブラウザが保持するキーと値
＿＿セッションはWEBサーバーで保持するキーと値

確認方法
C:\Users\(ユーザー名)\AppData\Roaming\Microsoft\Windows\Cookies
ブラウザのアドレス欄に＿＿＿＿javascript:document.cookie;

リファラーがまったくない　ココは調べてる必要がある

＊１
＿＿HTMLだけにアクセスしてJavaScriptやCSS、画像にまったくアクセスしていない
注意：画像だけにアクセスしても同様に対処される

**デフォルトの名無しさん** · 2018/06/23(土) 14:26:59.81

それこそ人工知能で人間っぽくみせるプログラムとかを作ってほしいですよね。

**遊園地** · 2018/06/23(土) 14:29:45.70

いくつかの書式形式から、HTML構造を頻繁に変えられると
もう、維持の張り合い

そんなサイトに出くわした事はない。けどなーｗ

**遊園地** · 2018/06/23(土) 14:35:43.61

>>288
python関係ないけど、

費用掛かって良いなら、
＿＿＿RPAのトリガーを使う

試した事ないから、無理かもしれない。＋時間が膨大にかかる

**281** · 2018/06/23(土) 16:00:37.87

>>287
とても参考になります。

>同じIPアドレスからのアクセスの間隔が常にほぼ同じ秒数間隔の変更
やりました。今のところこれだけで大丈夫そうです。

＞同じIPアドレスから、同じユーザーエージェントで大量にアクセス　IP変更で対処
調べたらやり方がでてきたので、検討します。

＞人間らしくないきっちりしすぎるアクセス　*1
わかりました。覚えておきます。

＞C:\Users\(ユーザー名)\AppData\Roaming\Microsoft\Windows\Cookies
Appdateというフォルダがなく、C:\Users\(ユーザー名)、までしか一致しなかったです。
Cドライブ指定で「Cookies」で検索しましたが、これに関係ありそうなファイルにはたどり着けませんでした。
こちらwin10(64)です。

＞ブラウザのアドレス欄に＿＿＿＿javascript:document.cookie;
やりました。なんか文字いっぱい出てきました。

＞リファラーがまったくない　ココは調べてる必要がある
検索結果のURLに直接アクセスしてるので、TOPの検索経由でスクレイピングする方法も試してみます。

**遊園地** · 2018/06/23(土) 18:20:10.76

>>291
おめでとう。

　こっちはURLまで取得できるけど、保存だと弾かれて苦戦中

試しにIPとブラウザ偽装でも、ダメだった。

諦めて、PyAutoGUIでキーボードでブラウザ操作に切り替え用か迷ってる。

**デフォルトの名無しさん** · 2018/06/23(土) 21:41:08.02

質問です。

こんなふうなスクリプトを書いています。
https://pastebin.com/0KKDbGnp

68～75行目で変数に関数を代入していますが、77～78行目をコメントアウトしてあるので何も動かないと思うんですが、実際には6行目の関数が動いてprint(～)とinput()が求められてしまいます。
なぜ動くんでしょうか？

**デフォルトの名無しさん** · 2018/06/23(土) 21:56:20.14

>>293
68行目が実行されて、
get_service_id() が実行されているからでは。
むしろ、なんで77-78行目をコメントアウトすると、何も実行されないはずと考えたのかが理解不能。

**デフォルトの名無しさん** · 2018/06/23(土) 21:58:47.18

68行目でget_service_idを実行してるから。
関数の代入ではなく関数の評価結果の代入になってる。
だからget_service_id関数はそこで評価(実行)され、そこでinput求められてる。

**デフォルトの名無しさん** · 2018/06/23(土) 22:26:43.34

>>294
>>295
どうもありがとうございます。

変数には関数を代入したのでは無く、関数の処理結果を代入した場合は、77-78の有無にかかわらず68行目の時点で実行されてしまうんですね。

77や78を動かした時のみ上の関数が動くようにするにはどんな方法がありますか？

**デフォルトの名無しさん** · 2018/06/23(土) 22:33:19.54

え、ifも分からないとかそういうレベルなの
ifは分かるの？どう？

**デフォルトの名無しさん** · 2018/06/23(土) 22:36:48.34

if文は分かりますが、この場合どうやって使うんでしょうか？

**デフォルトの名無しさん** · 2018/06/23(土) 22:38:41.95

>>297
なんでいちいち煽るのスレタイ読めないの

**デフォルトの名無しさん** · 2018/06/23(土) 22:41:53.16

ifで77に必要なコードと78に必要なコードに分けろ
普通の頭ならそうする

＞77や78を動かした時のみ上の関数が動くようにするにはどんな方法がありますか？
変数を一切使わなければいい
あのコードだと読み辛すぎて普通の頭ならやらない

**デフォルトの名無しさん** · 2018/06/23(土) 22:57:34.69

>>300
どうもありがとうございます
ifの使い方、変数を使わない方法を考えてみます

**遊園地** · 2018/06/23(土) 23:03:26.61

何してるかすら分からないや。

https://ideone.com/yojJc6

**デフォルトの名無しさん** · 2018/06/23(土) 23:06:55.26

https://ideone.com/6BkLDd

**デフォルトの名無しさん** · 2018/06/24(日) 15:48:36.36

スクレイピングに挑戦してるんだど
503や404のHTTPerror別に処理を分ける方法ってありますか？

503の時は動作停止
404の時は動作続行
としたいんだけど…

検索してもさっぱり手掛かり掴めないので、
方法としてあるかどうかだけでも知りたいです。

**304** · 2018/06/24(日) 15:52:00.43

>>304補足です。
スクレイピング対象のURLは複数あって、
コード内のURL（途中まで）と、txtファイルから読み込んだパラメータを組み合わせて完成URLを生成してます。

**デフォルトの名無しさん** · 2018/06/24(日) 16:45:34.35

プログラミングもやったことないんですが、いきなりpythonの入門書をやっていいのでしょうか？

**デフォルトの名無しさん** · 2018/06/24(日) 16:49:24.00

それともPCの入門書みたいな本を先にやるべきでしょうか？

**デフォルトの名無しさん** · 2018/06/24(日) 17:11:02.94

>>305
まずは自分の書いたコード貼れよと
このスレで以前マジ叱責されたわ

**デフォルトの名無しさん** · 2018/06/24(日) 17:19:49.55

スクレイピングとapiについての質問なのですが
セキュリティ関連のあるサイトから検索し、結果を取得したいのですが提供されているapiがリクエスト上限が分間数件とかです…
もう少し効率よく取得したいのですがスクレイピングならこういう制限なく自由に取っていって良いんでしょうか？
robots.txtは確認しましたがdelayの項目は無く制限された階層?からの取得はありません。

**デフォルトの名無しさん** · 2018/06/24(日) 17:22:56.35

>>306
まずPythonをやる動機はあるのかい？
システムを外注する金がないからお前作れと上司から無茶振りされたとか、
学校の課題で出されたとか、具体的な動機がないとプログラミングは身につかない
ただやってみたいってだけで身に付くのは好奇心旺盛で頭が柔軟な子供のみ

◆QZaw55cn4c · 2018/06/24(日) 17:33:34.72

>>310
＞ただやってみたいってだけで身に付くのは好奇心旺盛で頭が柔軟な子供のみ
子供は子供相応のやさしい課題をやるから「やってみたい」だけで身につく、という面があるのだろうね
プログラミングは複雑だし、単に覚えるだけではなく創る面もあるから、継続してモチベーションを維持しないといけない
モチベーションの維持ってどうすればいいのかな？