X



Pythonのお勉強 Part61

■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん
垢版 |
2019/07/20(土) 20:39:44.69ID:P9wbpcK8
★当スレにRubyのソースコード類を書くことを禁ず★
☆Ruby等、Pythonではないプログラミング言語での回答類を書くのも禁止
☆「Ruby では」「Rubyでは」をNGワード登録推奨

◆エラーを解決したいときはエラー表示(勝手に省略禁止)と
 環境(Pythonのバージョン・OS名・IDEの種類とバージョン)をシッカリ書く

◆Pythonのソースコードを5ちゃんにコピペするとインデントが崩れるので
  ↓にあげてるような、ソースコードうp用サイトに貼ってきてくだしあ
    (スクリーンショットをimgur等にうpる「横着」禁止)
ttp://ideone.com/      デフォ設定がCなので、Pythonするには言語種選択ボタン押下がピコ手間かも。
ttp://codepad.org/      ほぼ直感的に使える。Run codeボタンあり。
ttp://pastebin.com/     まずまずシンプル。
ttp://dpaste.com/      とてもシンプル。消えるまでの日数は十分長ーく指定のこと。
ttps://jupyter.org/try    (旧try.jupyter.org)ちょっとめんどうそう。
ttps://ja.osdn.net/pastebin/ ログイン必須になりやがった(゚Д゚#)

◇Pythonオフィシャルサイト
http://www.python.org/

◇まとめwiki
ttp://python.rdy.jp/

●関連スレ●
くだすれPython(超初心者用) その43【Ruby禁止】
http://mevius.5ch.net/test/read.cgi/tech/1555397061/

〇前スレ
Pythonのお勉強 Part60
http://mevius.5ch.net/test/read.cgi/tech/1556580863/

次スレの建立は>>985が挑戦する。 [EOF]
0657デフォルトの名無しさん
垢版 |
2019/09/06(金) 09:08:00.39ID:UNOJvShn
>>655 取り出した後どうやって利用するの?
テキストが入ってるのなら直接Excel に変換だろ。
ただこの場合も、数式はいろんなフォーマットがあるからまともに変換できないかもしれない。

ただ、論文の作者はなんらかの数式が扱えるエディタで作成してるはずだから、それらで抽出すれば原文を忠実に再現してくれるだろう。
ただ、形を抽出するだけならそれで済むが、数式を何か別の形で利用するとなるとまた一工夫必要になってくるだろう。

AI なんかの出る幕はないと思うけど。

図の中の文字や表組みも解析しようとなると、その部分はOCR になるね。 表組みは一筋縄ではいかない。
0658デフォルトの名無しさん
垢版 |
2019/09/06(金) 09:31:02.07ID:l3Mrhgkl
この要件にディープラーニング適用とか筋が悪い
仕事できなさそう
0659デフォルトの名無しさん
垢版 |
2019/09/06(金) 09:39:58.61ID:imeqLz7w
PDFの文字とは書いてあるけど、テキストデータとして存在しているとは限らないしね。
以前tesseractでバーコードからアウトライン化された文字列をOCRしてみたが、
数字限定で処理してもバーが入っているだけでうまくいかないし。(バーを1として認識してしまう)
0660デフォルトの名無しさん
垢版 |
2019/09/06(金) 10:45:11.66ID:uYtSk5+g
皆さんご返信いただきありがとうございます.
少なくとも現状でロバストネスのあるライブラリがあるわけではないということはわかりました.
ディープラーニングを使うのにも制約あれど,それ以外を使うのしても人間が理解するようにPDFから情報を抜き出すことはやはり容易でないかと思われますので,とりあえずディープラーニングの勉強がてらやってみたいと思います.

>>655
調べてみます.ご提案ありがとうございます.
>>657
すみません.どのように使うかは秘密にさせてください.
ただ文字だけでなく論文中に含まれる様々な情報をデータ化する必要があります.
>>659
それが一番の問題になりうる点だと思っています.
例えば人が見ても1なのかlなのかわからない時が往々にしてあります.
0666デフォルトの名無しさん
垢版 |
2019/09/06(金) 21:31:17.24ID:4DnFOiMV
>>664
いや特殊タスクだろ
仮にデータセットがあったとしても、アルゴリズムは?チューニングは?計算資源は?
そういうところがディープラーニングを魔法だと思っているという事だぞ
0667デフォルトの名無しさん
垢版 |
2019/09/07(土) 11:35:55.18ID:vyjRuzGq
特定の対象文字があるんだろ
図ならfig、表ならtable
pdfを画像化してテンプレで対象文字ディテクトして適当に切り出して終わりだろうが
DLとかOCRとか的外れすぎる
0668デフォルトの名無しさん
垢版 |
2019/09/07(土) 11:41:44.93ID:vyjRuzGq
ちなみにこのタスクでDL難しいとか抜かしてるタコもいるけど
こんなタスクすぐ思いつくだけでも学習データ自動生成出来そうだし余裕なんだが本当にDL体系的にやったことあって物言ってるのか?
個人でも使える資源ならいくらでもあるし、アルゴリズムは適当にライブラリについてる奴使えば素人でもそれなりの精度になる
まあ上で言った通りこんなタスクにDL不要だけど
0670デフォルトの名無しさん
垢版 |
2019/09/07(土) 12:00:48.57ID:QghFXEjw
今ならアルゴリズムとチューニングはライブラリにお任せだし資源はec2使えばいいのは少なくとも確か
666からは6,7年前くらいにちょっと手出して逃げ出した奴臭がする
0671デフォルトの名無しさん
垢版 |
2019/09/07(土) 12:02:56.56ID:8hmhd2TE
どっちを信じればいいかの解析にディープラーニング使えますか?
0673デフォルトの名無しさん
垢版 |
2019/09/07(土) 12:45:36.34ID:fELor0th
データさえあれば即できると思っている辺り、チュートリアル止まりなんだろうか
今だってライブラリで簡単に出来るのは分類回帰物体検出が関の山だが、まさかYOLO辺りに放り込めばすぐできると思ってないか?
資源使うのにもお金がかかるんだよ?
想像力足りてないし夢見過ぎでは
0675デフォルトの名無しさん
垢版 |
2019/09/07(土) 12:57:05.09ID:fELor0th
>>667 にしたって「適当に」の部分が最も重要かつ難所だろうに…
0676デフォルトの名無しさん
垢版 |
2019/09/07(土) 13:26:54.54ID:9ZLTp1d4
>>673
ec2使う程度の金もないような貧乏人がギャオってるのかよwお笑いやな
データあるのに実現方法が分からない?
能力足りてないし脳ミソ退化しすぎでは
0677デフォルトの名無しさん
垢版 |
2019/09/07(土) 13:30:40.25ID:9ZLTp1d4
いちいち具体例あげるとか小学生に教える訳じゃあるまいししないけど
ヒントだけあげるとするなら例えば分類器なら使い方を工夫すれば分類以外の事にも使える
そういう事
0679デフォルトの名無しさん
垢版 |
2019/09/07(土) 13:57:10.04ID:fBkgU3Tc
たとえばって言ったとき
その例えって具体例だとおもうんだ

社会人が例えばって言って関係ない比喩で話し始めたりしたら
俺は全力で逃げる
0680デフォルトの名無しさん
垢版 |
2019/09/07(土) 14:08:29.49ID:Xl8GtuMF
たとえば次のひとどうぞ
0681デフォルトの名無しさん
垢版 |
2019/09/07(土) 14:14:35.16ID:fELor0th
>>676
データがあるって前提も相当おかしいやろ
方法が決まっていない時点で何のデータをどんな形式でどれだけ集めればいいのかも不明なのにか?
何も考えずに使えるかも分からないデータ集めから始めるのか?
0682デフォルトの名無しさん
垢版 |
2019/09/07(土) 15:06:16.53ID:rAOLkxY4
>>677
端から見てると、偉そうに講釈垂れるだけで自分でやったらできませんでしたってなる思慮の浅い奴にしか見えない
0685デフォルトの名無しさん
垢版 |
2019/09/07(土) 17:24:26.00ID:ZCRWKxaY
Hooliは、新しい時代を創造し、世界をより良いものにしてくれる素敵な価値を貴方に与えます
0686デフォルトの名無しさん
垢版 |
2019/09/07(土) 17:39:28.70ID:wuK88YsA
データと目標が決まらないと何も始まらないと思うが
機械学習とか DL 以前の問題
0687デフォルトの名無しさん
垢版 |
2019/09/07(土) 17:44:44.86ID:H+oE8oQz
データはないけど目標はあるよ
機械学習の案件に潜り込んでフリーで毎月100万円貰うって立派な目標がね
0689デフォルトの名無しさん
垢版 |
2019/09/07(土) 17:55:17.67ID:NjkfeQeN
出処が様々なPDFの情報をまとめてデータ化したいなら、ページごとにラスタ画像に変換してからPDFに戻して、それをGoogle Driveにでも突っ込むンだねぇ
それ以上の精度を期待するなら、まずPDFの仕様書を理解できるまで読み込んで、サンプルになるPDFを何十個か調べてみて、
PDFの内部構造と見た目とセマンティクスがいかに一致しないかを理解した上で先に進むべきか考えるといい
0690デフォルトの名無しさん
垢版 |
2019/09/07(土) 18:37:03.42ID:Qrwvg/zc
協会けんぽの都道府県別保険料率のpdfをcsv化成功した人いる?
まだまったく手を付けていないけど、あの料率のデータが手に入ると結構助かるから挑戦してみようかと
0691デフォルトの名無しさん
垢版 |
2019/09/07(土) 20:42:50.80ID:RzaAKAuw
>>689
よくわかってらっしゃる。
PDFビュワーの文字列検索機能はどうやって実現してるのかよくわからん。
iTextPDFがゴミなだけなのか?
0693デフォルトの名無しさん
垢版 |
2019/09/07(土) 22:34:28.32ID:WyEtFyU9
>>679
そんなこと言って労ぜず情報得ようとしても無駄だぞ
少しは自分の頭で考えろ、そんなだから脳ミソ退化するんだわ
0695デフォルトの名無しさん
垢版 |
2019/09/07(土) 22:41:21.71ID:WyEtFyU9
>>682
自分でやったら、という仮定はナンセンスだね
当然経験を積んだ上で発言している
それで言うならこの質問者はやってすらいないからね
とりあえずやってみてどういう課題があってどうして無理なのかくらい把握してから来いやほんまに
0696デフォルトの名無しさん
垢版 |
2019/09/07(土) 23:59:22.13ID:04zc8ZSA
>>694
今日日データセットで溢れかえってるとかデータがあれば後は〇〇するだけとか言ってたのは誰ですかね
0697デフォルトの名無しさん
垢版 |
2019/09/08(日) 00:00:36.69ID:by11o+qR
偉そうに人に注文つけるだけならインチキ野郎でもできるから
発言の裏がとれない
0698デフォルトの名無しさん
垢版 |
2019/09/08(日) 09:51:15.85ID:r5taSsRp
>>690
手打ちすればいいんじゃね?
0701デフォルトの名無しさん
垢版 |
2019/09/08(日) 10:29:42.63ID:8Qa/il9I
>>696
落ち着いて673をよく読め
データ溢れかえってるのもデータ集めたら実質終わりなのも事実だがな
ぶっちゃけキミまともな開発経験ないでしょ
0702デフォルトの名無しさん
垢版 |
2019/09/08(日) 10:55:31.13ID:l66ZK6TG
673ってお前のレスじゃないだろペテン野郎
お前がおかしいって言ってる他人のレスだろ
0703デフォルトの名無しさん
垢版 |
2019/09/08(日) 11:28:20.81ID:8Qa/il9I
そりゃ696が噛み付いてる俺のレスの原因がそのレスなんだから当たり前だろ脳ミソ退化してんのか?
0705デフォルトの名無しさん
垢版 |
2019/09/08(日) 11:48:08.14ID:m+XQHtHp
>>679
相手を説き伏せるために使うたとえって、結局自分の考えに都合よく沿うたとえしか出てこない。
おまけに、本来の議論から外れてたとえが適切かどうかみたいなことになる。
そこのところをわかってない、よく考えない人はたとえ話がわかりやすいと納得したり歓迎する。
昔、勤務先の会社で、会議の短縮・効率化が進めらたときに、たとえ話を多用すると退場ってことに
なった。

・よく考えない人を巻き込んで自分の味方にしようとする性格の人がよくやる。
・議論の対象をそのたとえたものと同様に見ていて、そのもので議論できない人なのだとわかる。

たとえ話はほどほどに。
0706デフォルトの名無しさん
垢版 |
2019/09/08(日) 12:26:33.11ID:JM//ktAq
>>701
> データ溢れかえってる
なら出せばいいのに、ガン無視してて笑うわ

> ぶっちゃけキミまともな開発経験ないでしょ
お前がなw
0707デフォルトの名無しさん
垢版 |
2019/09/08(日) 12:39:35.70ID:8Qa/il9I
出すって何の話をしてるんだ
データの探し方が分かりましぇん教えてくだしゃぁいってことか?
偏差値20以上違うと会話できないというのは本当らしいな
0708デフォルトの名無しさん
垢版 |
2019/09/08(日) 13:04:44.45ID:m+XQHtHp
(1)
f(x) = (4x + √(4x^2 - 1)) / (√(2x + 1) + √(2x - 1))
のとき
f(1) + f(2) + f(3) + ... + f(60)
を求めなさい

(2)
p は素数
n は任意の自然数
であるとき
(1+n)^p - (n^p) - 1 が p で割り切れることを証明してください
0709デフォルトの名無しさん
垢版 |
2019/09/08(日) 13:11:00.69ID:JM//ktAq
「探し方」とか出せない言い訳は要らんよw
溢れてるならURLなりキーワードをサクっと書けばいいだけ
0710デフォルトの名無しさん
垢版 |
2019/09/08(日) 13:13:35.63ID:vEjuQHJg
>>701
> データ集めたら実質終わりなのも事実だがな
それあなたの感想ですよね
0711デフォルトの名無しさん
垢版 |
2019/09/08(日) 13:15:10.95ID:BLKxYbzT
>>707
> 偏差値20以上違うと会話できないというのは本当らしいな

間違ってるから他で言うなよw
0712デフォルトの名無しさん
垢版 |
2019/09/08(日) 13:17:30.43ID:vEjuQHJg
>>703
脳ミソの退化度合いとか経験とかで一々関係ないマウント取る必要ないでしょ
意見の筋が通っていれば皆納得するはずだからね
0713デフォルトの名無しさん
垢版 |
2019/09/08(日) 13:27:39.16ID:m+XQHtHp
>>711
おまい親切だな
放っとけば良いのに
0714デフォルトの名無しさん
垢版 |
2019/09/08(日) 13:33:47.19ID:VM/FFvfj
まだやってんのかよこの話

偏差値はいいのかもしれないけど要領は悪そうだね
0719デフォルトの名無しさん
垢版 |
2019/09/08(日) 14:15:39.74ID:8Qa/il9I
>>714
要領の定義次第だな
自分にとって都合のいい情報を楽して手に入れられる相手を要領がいいと定義するならばその主張は正しくなるが
0724デフォルトの名無しさん
垢版 |
2019/09/08(日) 15:07:44.94ID:8Qa/il9I
>>720
同意する
つまり俺とこのスレの有象無象は同じレベルではないのでこれは争いではないという事
素直に自分よりレベルが上の相手の言うことを聞けない無能共の喚き
0727デフォルトの名無しさん
垢版 |
2019/09/08(日) 15:20:37.78ID:8Qa/il9I
>>723
まあ一つ定量的に順位を付けるとしたら
このスレの中で年収の暫定一位は間違いなく俺だろうな
0728デフォルトの名無しさん
垢版 |
2019/09/08(日) 15:59:27.11ID:JM//ktAq
結局、知ったかして
> データ溢れかえってる
って書いたものの何も出せずに玉砕
って言ういつものパターンw
0729デフォルトの名無しさん
垢版 |
2019/09/08(日) 16:03:58.24ID:8Qa/il9I
思い通りにコントロール出来なくて残念だったな
自分のレベルの低さを痛感するんだな
0730デフォルトの名無しさん
垢版 |
2019/09/08(日) 16:22:52.06ID:u5AhYyhP
>>729
レベルの低さを痛感したのでどうか脳みその足りない開発経験も無い私共にご教授下さい
>>667 の「適当に」切り出す所の具体的な方法をどうか教えていただけないでしょうか。
>>668 の学習データの生成方法についても具体的にお伺いしたいです。
あるいは既製の物を使うとしたら具体的にどのようなライブラリやデータセットが向いているでしょうか。
0733デフォルトの名無しさん
垢版 |
2019/09/08(日) 19:25:14.60ID:8Qa/il9I
>>730
1.何をどう教えて欲しいのか、自分で理解して言語化してから出直せ
2.どう試してみて何故駄目だったのかを述べよ、さすれば解決策を提示してもよいが丸投げには答えない
3.これも2に同じ、まず自分で試せ、その上で教えを請うそれが正しい手順
0735デフォルトの名無しさん
垢版 |
2019/09/08(日) 20:14:44.71ID:u5AhYyhP
>>733
1. 文中のfigやtabの記述を元に大体の位置を決定するのは分かったのですが、切り出すサイズの決め方をどの様にすれば出来るのか分からないのです。キーワードだけでもご教授頂けないでしょうか。
2. 生成タスクなのでGANをベースにしてGVXNを試しましたが、実際に有りそうな学習データが出来ませんでした。原因として思い当たる部分はありますでしょうか。
3. networkxとdoctrainデータセットを使っているのですが、学習がスムーズに進んでいない様に見えます。
0736デフォルトの名無しさん
垢版 |
2019/09/08(日) 20:34:29.58ID:3w0dPIZc
>>735
まず切り出し対象を定義した方がよい
対象となるfigとtableの仕様をまとめるところから始めるんだ
アルゴリズムの考案やネットワークの選定はそれから
0738デフォルトの名無しさん
垢版 |
2019/09/08(日) 20:54:26.73ID:u5AhYyhP
何にも情報量なくて草
0742デフォルトの名無しさん
垢版 |
2019/09/08(日) 21:01:36.39ID:3w0dPIZc
>>738
キミは情報を与える段階に達していないことを自覚すべき
与えて欲しければまず対象の定義をしろ
0743デフォルトの名無しさん
垢版 |
2019/09/08(日) 21:06:39.20ID:JM//ktAq
>>740
低能によくあるレス乙
ID:8Qa/il9IもID:3w0dPIZcも具体的に何も言えてない時点でレベルとかちゃんちゃらおかしいわw
0744デフォルトの名無しさん
垢版 |
2019/09/08(日) 21:27:19.40ID:3w0dPIZc
>>743
そうなのか
ならば低能が我々の真似事をしているのかも知れないな
具体的な指示は与えてやったのだから動くかどうかは好きにしろ
0745デフォルトの名無しさん
垢版 |
2019/09/08(日) 22:04:18.33ID:JM//ktAq
与えてやった?
低能ほど上から目線で語りたがるんだよな
そもそも
> 1. 文中のfigやtabの記述を元に
って書いてあるのに
> まず切り出し対象を定義した方がよい
とか頓珍漢なレスされてもなw
0746デフォルトの名無しさん
垢版 |
2019/09/08(日) 22:16:14.76ID:3w0dPIZc
>>745
事実としてレベルが上なのだから上から目線も何もない
キミは定義というものをした事がないのか
図表はカラーなのか等、対象の仕様を詳細に決定せよと言っている
これなら流石に無能でも分かるな?
0747デフォルトの名無しさん
垢版 |
2019/09/08(日) 22:30:34.30ID:JM//ktAq
>>746
> 図表はカラーなのか等
モノクロ256階調でいいよ
さて次は何を定義すればいいんだ?
また
> 前も言ったけど煽って労せず情報を得られると思うなよ甘えるな
とかでごまかすのかな?w
0748デフォルトの名無しさん
垢版 |
2019/09/08(日) 22:44:05.95ID:3w0dPIZc
>>747
等という文字が読めないのか
エッセンスはそれで合っているから
後は自分で必要十分なだけ仕様を定義しな
0752デフォルトの名無しさん
垢版 |
2019/09/08(日) 23:10:03.08ID:3w0dPIZc
無能とは本当に会話が成立しないな
ちゃんと必要十分なだけ定義が出来れば俺は逃げたりはしない
そちらが定義から逃げようとしているのであろう?
往々にして定義をしたがらない奴は無能である
0755デフォルトの名無しさん
垢版 |
2019/09/08(日) 23:23:19.46ID:MtO5EQx1
>>753
自分の今朝の行動(>>699)を忘れてしまっていることかな?
その他の騒いでいる問題はさらにくだらないことだからスルーしておくべし。
0756デフォルトの名無しさん
垢版 |
2019/09/09(月) 00:22:07.23ID:z3g9Guba
ファイルまたぎのグローバル変数について
調べたらベストプラクティスとして共有する変数宣言専用のクラス(.pyファイル)を用意して、それを全部のファイルからインポートするってあったんだけど、他にいい案ある?

これ
翻訳版https://codeday.me/jp/qa/20181211/61622.html
原盤
https://stackoverflow.com/questions/13034496/using-global-variables-between-files
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況