Pythonのお勉強 Part61

■ このスレッドは過去ログ倉庫に格納されています
2019/07/20(土) 20:39:44.69ID:P9wbpcK8
★当スレにRubyのソースコード類を書くことを禁ず★
☆Ruby等、Pythonではないプログラミング言語での回答類を書くのも禁止
☆「Ruby では」「Rubyでは」をNGワード登録推奨

◆エラーを解決したいときはエラー表示(勝手に省略禁止)と
 環境(Pythonのバージョン・OS名・IDEの種類とバージョン)をシッカリ書く

◆Pythonのソースコードを5ちゃんにコピペするとインデントが崩れるので
  ↓にあげてるような、ソースコードうp用サイトに貼ってきてくだしあ
    (スクリーンショットをimgur等にうpる「横着」禁止)
ttp://ideone.com/      デフォ設定がCなので、Pythonするには言語種選択ボタン押下がピコ手間かも。
ttp://codepad.org/      ほぼ直感的に使える。Run codeボタンあり。
ttp://pastebin.com/     まずまずシンプル。
ttp://dpaste.com/      とてもシンプル。消えるまでの日数は十分長ーく指定のこと。
ttps://jupyter.org/try    (旧try.jupyter.org)ちょっとめんどうそう。
ttps://ja.osdn.net/pastebin/ ログイン必須になりやがった(゚Д゚#)

◇Pythonオフィシャルサイト
http://www.python.org/

◇まとめwiki
ttp://python.rdy.jp/

●関連スレ●
くだすれPython(超初心者用) その43【Ruby禁止】
http://mevius.5ch.net/test/read.cgi/tech/1555397061/

〇前スレ
Pythonのお勉強 Part60
http://mevius.5ch.net/test/read.cgi/tech/1556580863/

次スレの建立は>>985が挑戦する。 [EOF]
2019/09/01(日) 23:36:28.74ID:NeDwkq7G
そこで書き込んじゃうのは甘え
2019/09/01(日) 23:38:40.21ID:be8Xi7zB
みんな楽しそうじゃないか
2019/09/01(日) 23:44:34.83ID:Ljecr/Lv
>>612
お前の言葉センスがクソだからだぞ
もう少しセンス身につかないかね?
2019/09/02(月) 05:20:14.85ID:eykXSwfl
何かあったの?
2019/09/02(月) 06:26:17.11ID:Z1rwDxVC
老害がイキってただけ
2019/09/02(月) 06:55:30.66ID:aDHkfLuH
おらおらおら
2019/09/02(月) 10:09:19.54ID:OqwXjV4a
どうなされた?
2019/09/02(月) 12:50:34.46ID:ee0XvpsF
老害「ギャオォォォン!w」
2019/09/02(月) 12:52:52.26ID:LddXNwm9
荒れるのは構わんが、せめてPythonの話題しろよw
622デフォルトの名無しさん
垢版 |
2019/09/02(月) 14:51:42.10ID:1ypeTQhc
Pythonだけでwebアプリは作れますか?
623デフォルトの名無しさん
垢版 |
2019/09/02(月) 14:58:53.13ID:4ywLnei2
なんで出来ないと思ったの
2019/09/02(月) 17:32:17.94ID:C9oOAGju
「だけで」って所に落とし穴がありそう
625デフォルトの名無しさん
垢版 |
2019/09/02(月) 17:36:03.43ID:4ywLnei2
LANケーブルなりWiFiのAPなりは必要だろうしな
2019/09/02(月) 18:09:12.92ID:F8UwyPBg
フロントエンドでJS一切使わずに素のHTMLだけだとヘボい操作感になりそうだがそれでもよろしければ可能です。
2019/09/02(月) 20:42:34.21ID:JCXkbVUC
>>625
LANケーブル?
WiFi全否定かよ
2019/09/03(火) 08:04:53.57ID:4zoK2fer
k本的に老害は何でも有線使いたがる気がするw
2019/09/03(火) 08:11:39.86ID:1mAsknZK
最近思ったけど画面って必要無くね?
全部CUIでやろうぜ
630デフォルトの名無しさん
垢版 |
2019/09/03(火) 09:17:48.67ID:BxzeyYli
文字をどこに映すんだ?画面は必要だろ?それともプリンタか?www
2019/09/03(火) 09:38:15.97ID:vv5jNCAU
>>630
アスペさんw
632デフォルトの名無しさん
垢版 |
2019/09/03(火) 10:41:31.25ID:gWEsYspA
どうせスクレイピングするんだから
クライアント側もブラウザじゃなくてCUIで充分だし
それならhtml吐かなくてもwebAPIだけあれば充分だし
なんでもかんでも >>622 の言うwebアプリの仕様を勝手に想定するべきじゃない
2019/09/03(火) 11:56:47.11ID:4JZi3P2l
ターミナルエミュレータとCUIを同じだと思ってるんでないの
2019/09/03(火) 12:18:01.91ID:Yqq7Iaat
おっぱい揉んどけ
2019/09/03(火) 14:18:53.83ID:/JIQCmA0
githubにおっpyっておっぱいライブラリ上がってたりしないの?
2019/09/03(火) 15:05:41.49ID:Sk67xQLY
pipiならあったよな?
2019/09/03(火) 15:06:40.80ID:AHbNUxuU
このクソ寒いダジャレ何度目だよ
2019/09/03(火) 15:51:06.62ID:io6Ty2PY
>>319 MacOS(Unix)もWindowsも使えるからだよ。
昔からAppleは教育用として無償配布したり教育用割引とか多かったから大学ではMacが多かった。
2019/09/03(火) 17:57:21.37ID:b1VS4uxF
バイオ系のデータ解析ソフトは、むかしはなぜかmac用しかなかった。
2019/09/03(火) 18:22:57.64ID:O78IIFeu
でっていう以外に何といえば良いのだろうか。
2019/09/03(火) 20:03:20.72ID:ylTw7k2q
logging(logger)って自分でグローバル宣言してないのに、なんでどこからでもアクセスできるの?
コンストラクタで宣言してるとか?
2019/09/03(火) 21:09:06.92ID:sj4DSyzd
>>641
え?パッケージだからじゃなくて?

import logging
以降、logging.関数名はどこでも使える

import numpy as np
以降、np.関数名はどこでも使える

質問の意図を誤解してたらゴメン
2019/09/03(火) 21:19:13.81ID:F3dAmiig
その通りだったわ、なんか深読みしてた
ログの形式とかはクラス変数か
ありがとう
2019/09/03(火) 21:39:27.43ID:sj4DSyzd
>>643
一応もう少し説明すると、形式としてはhoge.pyにaaa = 123だけ書いて
import hoge
としたらどこでもhoge.aaaが使えるのと一緒

https://github.com/python/cpython/blob/master/Lib/logging/__init__.py

の1887行目あたりで実現してる
2019/09/03(火) 21:43:26.85ID:b1VS4uxF
クレバー(・∀・)アゲ!
646デフォルトの名無しさん
垢版 |
2019/09/04(水) 11:28:24.46ID:Z0seKSTe
>>636
ピーピーゲリピーにしか見えない
647デフォルトの名無しさん
垢版 |
2019/09/04(水) 11:32:03.42ID:IWI+S7Jf
__init__.py に延々と実装ゾロゾロ書くのって抵抗ない?
2019/09/04(水) 13:17:32.81ID:P7o6e2y0
標準ライブラリにそういうのあったな
名前忘れたけど
649デフォルトの名無しさん
垢版 |
2019/09/04(水) 18:33:06.75ID:fz+JUOqI
tkinter(tkk)のコンボボックスって、選択された値かコンボボックス内のインデックスしか返せないの?
ms-accessのフォームやHTMLのフォームみたいにキーの値を返すのって無理なの?
2019/09/04(水) 18:51:49.47ID:Tf931XB2
psutilでバッテリー残量通知アプリ作ってるんだけど
iPhoneとかで残り20%とか出る奴あるじゃん?
あんなイメージなんだけど
一定間隔でsleep入れてチェックって感じの実装でいいの?
一般的にどうやってるんだああいう監視系のやつ
2019/09/04(水) 19:04:30.70ID:HTJbgiFI
while true:
sleep
みたいなかんじ
2019/09/05(木) 10:13:14.95ID:jPhMORz8
一般的にはwatch dogすなわち番犬
組み込みだと割り込み
プログラミングだと無限ループのスレッド
653デフォルトの名無しさん
垢版 |
2019/09/06(金) 06:35:15.35ID:uYtSk5+g
くだすれにも投稿したのですが,めぼしいレスがなかったのでこちらでも質問させてもらいます.

pythonで様々なpdf資料から情報を取り出したいと思ってます.
pdf資料は主に英字論文で,文字,図,式などが混在しているものを扱います.
既存のライブラリだとpdfの種類や図や式などの煩雑性から正確に抽出してくれないのではないかと思っており,いっそディープラーニングで抽出してくれるようなものを作ろうかと思ってます.この程度でディープラーニングを使うのはやりすぎでしょうか?
またおすすめのウェブサイトや文献があれば教えていただけると助かります.

なお,Google Driveの機能を試しましたがやはり正確に式を抽出できませんでした.
654デフォルトの名無しさん
垢版 |
2019/09/06(金) 06:53:12.69ID:Azg6SKmJ
>>653
pdfのファイルの中に文字情報が含まれていれば
そのテキストだけを取り出す事はできる

ただしテキストが表とかみたいにレイアウトされていると
人間が期待したような結果にはならない

OCRのように画像→文字にする方法を自分で作ればいいんじゃね?
それでも全部自前でやろうとすると
表や流し込みみたいな構造・レイアウトを判別する必要があるだろう
2019/09/06(金) 07:55:54.45ID:ve3lYTzq
PDF を、HTML に変換して、Selenium WebDriver で抜き出すとかは?
656デフォルトの名無しさん
垢版 |
2019/09/06(金) 08:46:43.18ID:4DnFOiMV
>>653
ディープラーニングは何でも解決してくれる魔法ではない
精度を出したければ相応の代償がかかる
2019/09/06(金) 09:08:00.39ID:UNOJvShn
>>655 取り出した後どうやって利用するの?
テキストが入ってるのなら直接Excel に変換だろ。
ただこの場合も、数式はいろんなフォーマットがあるからまともに変換できないかもしれない。

ただ、論文の作者はなんらかの数式が扱えるエディタで作成してるはずだから、それらで抽出すれば原文を忠実に再現してくれるだろう。
ただ、形を抽出するだけならそれで済むが、数式を何か別の形で利用するとなるとまた一工夫必要になってくるだろう。

AI なんかの出る幕はないと思うけど。

図の中の文字や表組みも解析しようとなると、その部分はOCR になるね。 表組みは一筋縄ではいかない。
658デフォルトの名無しさん
垢版 |
2019/09/06(金) 09:31:02.07ID:l3Mrhgkl
この要件にディープラーニング適用とか筋が悪い
仕事できなさそう
2019/09/06(金) 09:39:58.61ID:imeqLz7w
PDFの文字とは書いてあるけど、テキストデータとして存在しているとは限らないしね。
以前tesseractでバーコードからアウトライン化された文字列をOCRしてみたが、
数字限定で処理してもバーが入っているだけでうまくいかないし。(バーを1として認識してしまう)
660デフォルトの名無しさん
垢版 |
2019/09/06(金) 10:45:11.66ID:uYtSk5+g
皆さんご返信いただきありがとうございます.
少なくとも現状でロバストネスのあるライブラリがあるわけではないということはわかりました.
ディープラーニングを使うのにも制約あれど,それ以外を使うのしても人間が理解するようにPDFから情報を抜き出すことはやはり容易でないかと思われますので,とりあえずディープラーニングの勉強がてらやってみたいと思います.

>>655
調べてみます.ご提案ありがとうございます.
>>657
すみません.どのように使うかは秘密にさせてください.
ただ文字だけでなく論文中に含まれる様々な情報をデータ化する必要があります.
>>659
それが一番の問題になりうる点だと思っています.
例えば人が見ても1なのかlなのかわからない時が往々にしてあります.
2019/09/06(金) 12:12:48.95ID:kUxvWXrT
ロバストネスの意味あってないと思うけど、使いたかっただけかな?
2019/09/06(金) 15:31:12.40ID:zgVMlCm9
is演算子の振る舞いを変えることってできないですよね?
2019/09/06(金) 16:41:09.92ID:tM0YpD6H
上書き
2019/09/06(金) 17:43:33.71ID:mmxIa5xH
>>656
なに過去の話してんだよ
特殊タスクでもない限り今日日データセット溢れかえってるは
2019/09/06(金) 18:03:07.32ID:RrO6Um6/
>>664
>>653なんてメッチャ特殊タスクだと思うが
データセットがあると言うなら示してみてくれ
666デフォルトの名無しさん
垢版 |
2019/09/06(金) 21:31:17.24ID:4DnFOiMV
>>664
いや特殊タスクだろ
仮にデータセットがあったとしても、アルゴリズムは?チューニングは?計算資源は?
そういうところがディープラーニングを魔法だと思っているという事だぞ
2019/09/07(土) 11:35:55.18ID:vyjRuzGq
特定の対象文字があるんだろ
図ならfig、表ならtable
pdfを画像化してテンプレで対象文字ディテクトして適当に切り出して終わりだろうが
DLとかOCRとか的外れすぎる
2019/09/07(土) 11:41:44.93ID:vyjRuzGq
ちなみにこのタスクでDL難しいとか抜かしてるタコもいるけど
こんなタスクすぐ思いつくだけでも学習データ自動生成出来そうだし余裕なんだが本当にDL体系的にやったことあって物言ってるのか?
個人でも使える資源ならいくらでもあるし、アルゴリズムは適当にライブラリについてる奴使えば素人でもそれなりの精度になる
まあ上で言った通りこんなタスクにDL不要だけど
2019/09/07(土) 11:52:29.35ID:VGW0Mafp
どっちを信じればいいいんだ?
2019/09/07(土) 12:00:48.57ID:QghFXEjw
今ならアルゴリズムとチューニングはライブラリにお任せだし資源はec2使えばいいのは少なくとも確か
666からは6,7年前くらいにちょっと手出して逃げ出した奴臭がする
671デフォルトの名無しさん
垢版 |
2019/09/07(土) 12:02:56.56ID:8hmhd2TE
どっちを信じればいいかの解析にディープラーニング使えますか?
2019/09/07(土) 12:31:14.41ID:N20s0Kz6
>>669
内容が具体的になってない時点で信用に値しないと思うべき
例えば>>664とか>>668とか
673デフォルトの名無しさん
垢版 |
2019/09/07(土) 12:45:36.34ID:fELor0th
データさえあれば即できると思っている辺り、チュートリアル止まりなんだろうか
今だってライブラリで簡単に出来るのは分類回帰物体検出が関の山だが、まさかYOLO辺りに放り込めばすぐできると思ってないか?
資源使うのにもお金がかかるんだよ?
想像力足りてないし夢見過ぎでは
674デフォルトの名無しさん
垢版 |
2019/09/07(土) 12:47:09.04ID:fELor0th
https://kokai.jp/wp/wp-content/uploads/2017/11/Screen-Shot-2015-02-14.png
自分は今どこにいるか
675デフォルトの名無しさん
垢版 |
2019/09/07(土) 12:57:05.09ID:fELor0th
>>667 にしたって「適当に」の部分が最も重要かつ難所だろうに…
2019/09/07(土) 13:26:54.54ID:9ZLTp1d4
>>673
ec2使う程度の金もないような貧乏人がギャオってるのかよwお笑いやな
データあるのに実現方法が分からない?
能力足りてないし脳ミソ退化しすぎでは
2019/09/07(土) 13:30:40.25ID:9ZLTp1d4
いちいち具体例あげるとか小学生に教える訳じゃあるまいししないけど
ヒントだけあげるとするなら例えば分類器なら使い方を工夫すれば分類以外の事にも使える
そういう事
2019/09/07(土) 13:47:15.94ID:fBkgU3Tc
付け加わった情報が「工夫すれば」しかないんスけど
2019/09/07(土) 13:57:10.04ID:fBkgU3Tc
たとえばって言ったとき
その例えって具体例だとおもうんだ

社会人が例えばって言って関係ない比喩で話し始めたりしたら
俺は全力で逃げる
680デフォルトの名無しさん
垢版 |
2019/09/07(土) 14:08:29.49ID:Xl8GtuMF
たとえば次のひとどうぞ
681デフォルトの名無しさん
垢版 |
2019/09/07(土) 14:14:35.16ID:fELor0th
>>676
データがあるって前提も相当おかしいやろ
方法が決まっていない時点で何のデータをどんな形式でどれだけ集めればいいのかも不明なのにか?
何も考えずに使えるかも分からないデータ集めから始めるのか?
2019/09/07(土) 15:06:16.53ID:rAOLkxY4
>>677
端から見てると、偉そうに講釈垂れるだけで自分でやったらできませんでしたってなる思慮の浅い奴にしか見えない
2019/09/07(土) 16:53:32.96ID:UAMI6YgN
初めて来たけどなんで荒れてんの(´・ω・`)
2019/09/07(土) 16:56:53.55ID:1+sMoIuR
職場がうまくいってないんだろうな
2019/09/07(土) 17:24:26.00ID:ZCRWKxaY
Hooliは、新しい時代を創造し、世界をより良いものにしてくれる素敵な価値を貴方に与えます
2019/09/07(土) 17:39:28.70ID:wuK88YsA
データと目標が決まらないと何も始まらないと思うが
機械学習とか DL 以前の問題
2019/09/07(土) 17:44:44.86ID:H+oE8oQz
データはないけど目標はあるよ
機械学習の案件に潜り込んでフリーで毎月100万円貰うって立派な目標がね
2019/09/07(土) 17:51:43.14ID:t3OyWPrD
夢を目標と呼ぶのは出来損ないだけですよ
2019/09/07(土) 17:55:17.67ID:NjkfeQeN
出処が様々なPDFの情報をまとめてデータ化したいなら、ページごとにラスタ画像に変換してからPDFに戻して、それをGoogle Driveにでも突っ込むンだねぇ
それ以上の精度を期待するなら、まずPDFの仕様書を理解できるまで読み込んで、サンプルになるPDFを何十個か調べてみて、
PDFの内部構造と見た目とセマンティクスがいかに一致しないかを理解した上で先に進むべきか考えるといい
690デフォルトの名無しさん
垢版 |
2019/09/07(土) 18:37:03.42ID:Qrwvg/zc
協会けんぽの都道府県別保険料率のpdfをcsv化成功した人いる?
まだまったく手を付けていないけど、あの料率のデータが手に入ると結構助かるから挑戦してみようかと
691デフォルトの名無しさん
垢版 |
2019/09/07(土) 20:42:50.80ID:RzaAKAuw
>>689
よくわかってらっしゃる。
PDFビュワーの文字列検索機能はどうやって実現してるのかよくわからん。
iTextPDFがゴミなだけなのか?
2019/09/07(土) 22:00:26.39ID:LGCtCXOo
>>690
PDF を、HTML に変換して、データを抜き出して、CSV にするとか?
2019/09/07(土) 22:34:28.32ID:WyEtFyU9
>>679
そんなこと言って労ぜず情報得ようとしても無駄だぞ
少しは自分の頭で考えろ、そんなだから脳ミソ退化するんだわ
2019/09/07(土) 22:35:39.90ID:WyEtFyU9
>>681
あの、自分いいすか、データあればって前提を出してきたの、おたくなんですが、、わら
2019/09/07(土) 22:41:21.71ID:WyEtFyU9
>>682
自分でやったら、という仮定はナンセンスだね
当然経験を積んだ上で発言している
それで言うならこの質問者はやってすらいないからね
とりあえずやってみてどういう課題があってどうして無理なのかくらい把握してから来いやほんまに
696デフォルトの名無しさん
垢版 |
2019/09/07(土) 23:59:22.13ID:04zc8ZSA
>>694
今日日データセットで溢れかえってるとかデータがあれば後は〇〇するだけとか言ってたのは誰ですかね
2019/09/08(日) 00:00:36.69ID:by11o+qR
偉そうに人に注文つけるだけならインチキ野郎でもできるから
発言の裏がとれない
698デフォルトの名無しさん
垢版 |
2019/09/08(日) 09:51:15.85ID:r5taSsRp
>>690
手打ちすればいいんじゃね?
2019/09/08(日) 09:55:37.61ID:Zuj3x7n5
また喧嘩ですか?
2019/09/08(日) 10:00:36.08ID:qhek8oPm
いいえ
2019/09/08(日) 10:29:42.63ID:8Qa/il9I
>>696
落ち着いて673をよく読め
データ溢れかえってるのもデータ集めたら実質終わりなのも事実だがな
ぶっちゃけキミまともな開発経験ないでしょ
2019/09/08(日) 10:55:31.13ID:l66ZK6TG
673ってお前のレスじゃないだろペテン野郎
お前がおかしいって言ってる他人のレスだろ
2019/09/08(日) 11:28:20.81ID:8Qa/il9I
そりゃ696が噛み付いてる俺のレスの原因がそのレスなんだから当たり前だろ脳ミソ退化してんのか?
2019/09/08(日) 11:33:30.94ID:1Z7xy6pX
何なんだケンカする要素がどこにあるんだ
若いってことか((w´ω`w))
705デフォルトの名無しさん
垢版 |
2019/09/08(日) 11:48:08.14ID:m+XQHtHp
>>679
相手を説き伏せるために使うたとえって、結局自分の考えに都合よく沿うたとえしか出てこない。
おまけに、本来の議論から外れてたとえが適切かどうかみたいなことになる。
そこのところをわかってない、よく考えない人はたとえ話がわかりやすいと納得したり歓迎する。
昔、勤務先の会社で、会議の短縮・効率化が進めらたときに、たとえ話を多用すると退場ってことに
なった。

・よく考えない人を巻き込んで自分の味方にしようとする性格の人がよくやる。
・議論の対象をそのたとえたものと同様に見ていて、そのもので議論できない人なのだとわかる。

たとえ話はほどほどに。
2019/09/08(日) 12:26:33.11ID:JM//ktAq
>>701
> データ溢れかえってる
なら出せばいいのに、ガン無視してて笑うわ

> ぶっちゃけキミまともな開発経験ないでしょ
お前がなw
2019/09/08(日) 12:39:35.70ID:8Qa/il9I
出すって何の話をしてるんだ
データの探し方が分かりましぇん教えてくだしゃぁいってことか?
偏差値20以上違うと会話できないというのは本当らしいな
708デフォルトの名無しさん
垢版 |
2019/09/08(日) 13:04:44.45ID:m+XQHtHp
(1)
f(x) = (4x + √(4x^2 - 1)) / (√(2x + 1) + √(2x - 1))
のとき
f(1) + f(2) + f(3) + ... + f(60)
を求めなさい

(2)
p は素数
n は任意の自然数
であるとき
(1+n)^p - (n^p) - 1 が p で割り切れることを証明してください
2019/09/08(日) 13:11:00.69ID:JM//ktAq
「探し方」とか出せない言い訳は要らんよw
溢れてるならURLなりキーワードをサクっと書けばいいだけ
710デフォルトの名無しさん
垢版 |
2019/09/08(日) 13:13:35.63ID:vEjuQHJg
>>701
> データ集めたら実質終わりなのも事実だがな
それあなたの感想ですよね
2019/09/08(日) 13:15:10.95ID:BLKxYbzT
>>707
> 偏差値20以上違うと会話できないというのは本当らしいな

間違ってるから他で言うなよw
712デフォルトの名無しさん
垢版 |
2019/09/08(日) 13:17:30.43ID:vEjuQHJg
>>703
脳ミソの退化度合いとか経験とかで一々関係ないマウント取る必要ないでしょ
意見の筋が通っていれば皆納得するはずだからね
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況