Pythonのお勉強 Part57

**デフォルトの名無しさん** · 2018/06/25(月) 09:57:59.24

Pythonオフィシャルサイト
http://www.python.org/

■前スレ
Pythonのお勉強 Part56
http://mevius.5ch.net/test/read.cgi/tech/1519430841/

次スレは>>980が挑戦する

ソース貼れるサイト
https://pastebin.com/ ペーストビン
https://ja.osdn.net/pastebin/　OSDNコピペ　ログインしないで投稿すると一週間で自動削除

**デフォルトの名無しさん** · 2018/06/25(月) 11:36:25.91

>>1乙

**デフォルトの名無しさん** · 2018/06/25(月) 13:47:46.64

　　　　　　　　　　　　　／￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣
　　　　,＿＿　　　　　| >>1がロリコンで捕まりますように……
　　／　　.／＼　　　＼＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿
　／　　.／( ・ ).＼　　　　　　o〇　　　　ヾ!;;;::iii|//"
／_____／ .（´ｰ｀）　,＼　　 ∧∧　　　　　　　|;;;;::iii|/ﾞ
￣|| || || ||. |っ￠..||￣　　（,,　　）　ﾅﾓﾅﾓ　　|;;;;::iii|
　 || || || ||./,,,　|ゝ iii~ 　　⊂　ヾｗｗｗｊｊｒｊｗw!;;;;::iii|ｊｗｊｊｒｊｗw〃
　 |￣￣￣|~~凸（￣）凸　（　　,,）～　ｗｊｗｊｊｒｊ从ｊｗｗｊｗｊｊｒｊ从ｊｒ

**デフォルトの名無しさん** · 2018/06/25(月) 14:06:54.30

>>1は幼女

**デフォルトの名無しさん** · 2018/06/25(月) 14:34:16.37

乙py

**デフォルトの名無しさん** · 2018/06/25(月) 14:54:34.34

>>1はもとJKだよ！　(`･ω･´)

**デフォルトの名無しさん** · 2018/06/25(月) 19:01:57.03

うむ、大儀である

Python3エンジニア認定基礎模擬試験
https://diver.diveintocode.jp/exam

**デフォルトの名無しさん** · 2018/06/25(月) 22:28:43.69

コメントアウトするときに、"# "を行頭に挿入してくれるIDEは無いのかな。
どちらかと言うと軽量なIDLE、Pythonwin、PyScriptあたりは、"##"を行頭に挿入してしまい、変更設定もないんだよなぁ。
PyCharmはできるみたいだけど、他にはある？

**デフォルトの名無しさん** · 2018/06/25(月) 23:11:36.53

Atom

**デフォルトの名無しさん** · 2018/06/25(月) 23:19:41.09

>>8
それくらい手入力すればいいのに

**デフォルトの名無しさん** · 2018/06/26(火) 01:29:31.49

他人が書いたテキストファイルから必要な行だけ抜き出そうとしたら
ファイルのほうの書式ミスだの誤植だのでうまくいかなかったときの悲しみ

**デフォルトの名無しさん** · 2018/06/26(火) 08:45:04.93

scrapyで1分毎に1度アクセスしてスクレイピングをしたいのですが
毎回起動すると巡回するまでに時間がかかります
ですので起動しっぱなしで巡回させたいのですがどのようにしたらいいのでしょうか

spider内でsleepしたりもしたんですがアイテムの処理まで止まってしまいダメでした

**デフォルトの名無しさん** · 2018/06/26(火) 10:22:32.88

業務妨害を加速させたいとな？

**デフォルトの名無しさん** · 2018/06/26(火) 11:33:00.83

CrawlerRunner を使えばできそうな感じがする
ttp://scrapy-ja.readthedocs.io/ja/latest/topics/practices.html

scrapy自体使ったことないからよく知らないけどもｗ

**デフォルトの名無しさん** · 2018/06/26(火) 13:42:21.19

ありがとうございます
reactorの仕組みが理解できてないんですけど
.run()をループ内に入れると失敗するので以下のようにしたのですが
spiderの__init__は実行されてるのですがリクエストは実行されず最後にまとめてされてるみたいです
(この場合3分後に)

https://pastebin.com/6tvdPRnL

出力
__INIT__
__INIT__
__INIT__
start_requests
start_requests
start_requests
request: https://www.yahoo.co.jp/
request: https://www.yahoo.co.jp/
request: https://www.yahoo.co.jp/

**デフォルトの名無しさん** · 2018/06/26(火) 14:09:43.07

とりあえずProcessを作りその中で実行するようにしました
コマンドだと10秒ぐらい掛かってましたがscriptから実行すると3秒ほどに短縮できたので!

**デフォルトの名無しさん** · 2018/06/26(火) 17:44:51.37

>>10
大幅な手直しの時には、さすがにそんなことやってられないでしょう。
対応していれば、行選択してショートカットキーで一発なんだから。

**デフォルトの名無しさん** · 2018/06/27(水) 06:04:56.19

前スレ978です
お礼が大変遅くなって申し訳ありませんでした
すすめていただいた本をまずは書店で見てきたいと思います
ありがとうございました

**デフォルトの名無しさん** · 2018/06/27(水) 16:18:33.53

>>8
jupiterとvscodeならctrl+/で行頭に#入れてくれたと思う

**デフォルトの名無しさん** · 2018/06/27(水) 16:30:54.06

vimならマクロ設定して＠＠でいける　　はいっ、vimの勝ちーー！

**デフォルトの名無しさん** · 2018/06/27(水) 16:38:58.81

vim最強

**デフォルトの名無しさん** · 2018/06/27(水) 19:08:41.36

ネタなのか…

**デフォルトの名無しさん** · 2018/06/28(木) 00:11:52.26

pythonだとデータサイエンス屋さん以外でまともな人はたいていemacsかvim

**デフォルトの名無しさん** · 2018/06/28(木) 00:30:32.41

ctrl+/ -> 2ストローク
esc @ @ -> 3ストローク

ダメじゃん

**デフォルトの名無しさん** · 2018/06/28(木) 00:38:37.07

vimなら ^, ctrl+V, jjjjj, I, #, esc が普通じゃない？

**デフォルトの名無しさん** · 2018/06/28(木) 07:23:00.10

トリプルクォートで文字列化
さっさと修正したらバッサリ削除してコミット。

**デフォルトの名無しさん** · 2018/06/28(木) 08:02:32.74

numpyってstrからastypeで変換できないんだな

**デフォルトの名無しさん** · 2018/06/28(木) 09:33:32.71

>>12
1分に1アクセスならDOWNLOAD_DELAY=60だろ
1分ごとに全部クロールならCrawlerProcess使え

**デフォルトの名無しさん** · 2018/06/28(木) 09:52:59.74

scrapy使い結構いるのかな？　私はrequestsでアクセスして正規表現でデータ抽出ですわ

**デフォルトの名無しさん** · 2018/06/28(木) 16:26:28.85

>>27
np.array(list('hoge'), astype='uint8')

**デフォルトの名無しさん** · 2018/06/28(木) 16:52:34.35

>>30
intへの変換だよ

**デフォルトの名無しさん** · 2018/06/28(木) 17:35:24.41

エスパー希望

**デフォルトの名無しさん** · 2018/06/28(木) 21:08:47.06

>>29
scrapyめんどいな、xpathとかなんやねん？
性器表現もだるいだろ

結論
ビューティフォースープ最高！

**デフォルトの名無しさん** · 2018/06/29(金) 20:16:31.44

BeautifulSoupのパーサーにhtml5lib(1.0.1)使ってますが、
先頭に空のコメントがあると見つからずNoneになるのですが、
これっておかしいですよね？lxmlとhtml.parserは問題ないのに
soup = BeautifulSoup('''<div></div>''', 'html5lib')
print(soup.div) # <div></div>

soup = BeautifulSoup('''<div></div>''', 'html5lib')
print(soup.div) # None

soup = BeautifulSoup('''<div></div>''', 'html5lib')
print(soup.div) # <div></div>

**デフォルトの名無しさん** · 2018/06/29(金) 20:19:18.50

soup = BeautifulSoup('''<div></div>''', 'html5lib')
は？

**デフォルトの名無しさん** · 2018/06/29(金) 21:39:52.07

re.search(r'(<[^<>!-]+>)+', s).group()
ひ？

**デフォルトの名無しさん** · 2018/06/30(土) 00:26:17.52

jQuery では、CSS セレクター。
Ruby のNokogiri では、CSS セレクター・XPath

ちなみに、Chrome で、XPathを取り出せるから、
それを、CSSセレクターに直せばよい

XPath では、[1] とか、順番で表示されるから、
順番が変わると取得できないので、CSSセレクターの方が良い

正規表現は、木構造に対応していない

<1><2></2><3></3></1>
これで、<1></2> が対応してしまう。
</1>よりも先に、</2>が見つかるから

**デフォルトの名無しさん** · 2018/06/30(土) 00:29:34.13

HTML のコメント要素なんて、作れるか？

**デフォルトの名無しさん** · 2018/06/30(土) 10:27:04.47

取得したいのは木構造ではない　エロ画像だ

**デフォルトの名無しさん** · 2018/06/30(土) 12:22:39.79

空気嫁風船

**デフォルトの名無しさん** · 2018/06/30(土) 18:42:58.71

エロ画像を取得するために
木構造を解析するんだヴォケ

**デフォルトの名無しさん** · 2018/07/01(日) 01:01:36.78

性器表現でエロ画像を取得

**デフォルトの名無しさん** · 2018/07/01(日) 19:55:16.28

初心者なんだけど、「パーフェクトパイソンPython」で書いてあるコードがPython 3.7で動かないのは、書籍が古すぎってことでいいのか？

**デフォルトの名無しさん** · 2018/07/01(日) 20:01:59.65

まともな本なら動作確認されてるバージョンがあるからそれ使えよ
なんで3.7使うの？

**デフォルトの名無しさん** · 2018/07/01(日) 20:52:12.89

それが新しいからさ

とりあえず3.3で試してみる

ありがと

**デフォルトの名無しさん** · 2018/07/01(日) 21:24:34.98

ステイブルを辞書でひこう

**遊園地** ◆ExGQrDul2E · 2018/07/01(日) 23:40:54.02

エロ画像　キボンヌに正規表現使わなかった。
https://ideone.com/hikEa4

linuxコマンドのwgetをwinコマンドかosモジュールで置き換えたら使える。

**デフォルトの名無しさん** · 2018/07/02(月) 09:26:04.09

imgのsrcはサムネ画像の場合があるからhrefから取らないとダメだよ　（ ´,_ゝ｀）ﾌﾟｯ