Pythonのお勉強 Part61
■ このスレッドは過去ログ倉庫に格納されています
★当スレにRubyのソースコード類を書くことを禁ず★
☆Ruby等、Pythonではないプログラミング言語での回答類を書くのも禁止
☆「Ruby では」「Rubyでは」をNGワード登録推奨
◆エラーを解決したいときはエラー表示(勝手に省略禁止)と
環境(Pythonのバージョン・OS名・IDEの種類とバージョン)をシッカリ書く
◆Pythonのソースコードを5ちゃんにコピペするとインデントが崩れるので
↓にあげてるような、ソースコードうp用サイトに貼ってきてくだしあ
(スクリーンショットをimgur等にうpる「横着」禁止)
ttp://ideone.com/ デフォ設定がCなので、Pythonするには言語種選択ボタン押下がピコ手間かも。
ttp://codepad.org/ ほぼ直感的に使える。Run codeボタンあり。
ttp://pastebin.com/ まずまずシンプル。
ttp://dpaste.com/ とてもシンプル。消えるまでの日数は十分長ーく指定のこと。
ttps://jupyter.org/try (旧try.jupyter.org)ちょっとめんどうそう。
ttps://ja.osdn.net/pastebin/ ログイン必須になりやがった(゚Д゚#)
◇Pythonオフィシャルサイト
http://www.python.org/
◇まとめwiki
ttp://python.rdy.jp/
●関連スレ●
くだすれPython(超初心者用) その43【Ruby禁止】
http://mevius.5ch.net/test/read.cgi/tech/1555397061/
〇前スレ
Pythonのお勉強 Part60
http://mevius.5ch.net/test/read.cgi/tech/1556580863/
次スレの建立は>>985が挑戦する。 [EOF] >>655 取り出した後どうやって利用するの?
テキストが入ってるのなら直接Excel に変換だろ。
ただこの場合も、数式はいろんなフォーマットがあるからまともに変換できないかもしれない。
ただ、論文の作者はなんらかの数式が扱えるエディタで作成してるはずだから、それらで抽出すれば原文を忠実に再現してくれるだろう。
ただ、形を抽出するだけならそれで済むが、数式を何か別の形で利用するとなるとまた一工夫必要になってくるだろう。
AI なんかの出る幕はないと思うけど。
図の中の文字や表組みも解析しようとなると、その部分はOCR になるね。 表組みは一筋縄ではいかない。 この要件にディープラーニング適用とか筋が悪い
仕事できなさそう PDFの文字とは書いてあるけど、テキストデータとして存在しているとは限らないしね。
以前tesseractでバーコードからアウトライン化された文字列をOCRしてみたが、
数字限定で処理してもバーが入っているだけでうまくいかないし。(バーを1として認識してしまう) 皆さんご返信いただきありがとうございます.
少なくとも現状でロバストネスのあるライブラリがあるわけではないということはわかりました.
ディープラーニングを使うのにも制約あれど,それ以外を使うのしても人間が理解するようにPDFから情報を抜き出すことはやはり容易でないかと思われますので,とりあえずディープラーニングの勉強がてらやってみたいと思います.
>>655
調べてみます.ご提案ありがとうございます.
>>657
すみません.どのように使うかは秘密にさせてください.
ただ文字だけでなく論文中に含まれる様々な情報をデータ化する必要があります.
>>659
それが一番の問題になりうる点だと思っています.
例えば人が見ても1なのかlなのかわからない時が往々にしてあります. ロバストネスの意味あってないと思うけど、使いたかっただけかな? is演算子の振る舞いを変えることってできないですよね? >>656
なに過去の話してんだよ
特殊タスクでもない限り今日日データセット溢れかえってるは >>664
>>653なんてメッチャ特殊タスクだと思うが
データセットがあると言うなら示してみてくれ >>664
いや特殊タスクだろ
仮にデータセットがあったとしても、アルゴリズムは?チューニングは?計算資源は?
そういうところがディープラーニングを魔法だと思っているという事だぞ 特定の対象文字があるんだろ
図ならfig、表ならtable
pdfを画像化してテンプレで対象文字ディテクトして適当に切り出して終わりだろうが
DLとかOCRとか的外れすぎる ちなみにこのタスクでDL難しいとか抜かしてるタコもいるけど
こんなタスクすぐ思いつくだけでも学習データ自動生成出来そうだし余裕なんだが本当にDL体系的にやったことあって物言ってるのか?
個人でも使える資源ならいくらでもあるし、アルゴリズムは適当にライブラリについてる奴使えば素人でもそれなりの精度になる
まあ上で言った通りこんなタスクにDL不要だけど 今ならアルゴリズムとチューニングはライブラリにお任せだし資源はec2使えばいいのは少なくとも確か
666からは6,7年前くらいにちょっと手出して逃げ出した奴臭がする どっちを信じればいいかの解析にディープラーニング使えますか? >>669
内容が具体的になってない時点で信用に値しないと思うべき
例えば>>664とか>>668とか データさえあれば即できると思っている辺り、チュートリアル止まりなんだろうか
今だってライブラリで簡単に出来るのは分類回帰物体検出が関の山だが、まさかYOLO辺りに放り込めばすぐできると思ってないか?
資源使うのにもお金がかかるんだよ?
想像力足りてないし夢見過ぎでは >>667 にしたって「適当に」の部分が最も重要かつ難所だろうに… >>673
ec2使う程度の金もないような貧乏人がギャオってるのかよwお笑いやな
データあるのに実現方法が分からない?
能力足りてないし脳ミソ退化しすぎでは いちいち具体例あげるとか小学生に教える訳じゃあるまいししないけど
ヒントだけあげるとするなら例えば分類器なら使い方を工夫すれば分類以外の事にも使える
そういう事 たとえばって言ったとき
その例えって具体例だとおもうんだ
社会人が例えばって言って関係ない比喩で話し始めたりしたら
俺は全力で逃げる >>676
データがあるって前提も相当おかしいやろ
方法が決まっていない時点で何のデータをどんな形式でどれだけ集めればいいのかも不明なのにか?
何も考えずに使えるかも分からないデータ集めから始めるのか? >>677
端から見てると、偉そうに講釈垂れるだけで自分でやったらできませんでしたってなる思慮の浅い奴にしか見えない Hooliは、新しい時代を創造し、世界をより良いものにしてくれる素敵な価値を貴方に与えます データと目標が決まらないと何も始まらないと思うが
機械学習とか DL 以前の問題 データはないけど目標はあるよ
機械学習の案件に潜り込んでフリーで毎月100万円貰うって立派な目標がね 出処が様々なPDFの情報をまとめてデータ化したいなら、ページごとにラスタ画像に変換してからPDFに戻して、それをGoogle Driveにでも突っ込むンだねぇ
それ以上の精度を期待するなら、まずPDFの仕様書を理解できるまで読み込んで、サンプルになるPDFを何十個か調べてみて、
PDFの内部構造と見た目とセマンティクスがいかに一致しないかを理解した上で先に進むべきか考えるといい 協会けんぽの都道府県別保険料率のpdfをcsv化成功した人いる?
まだまったく手を付けていないけど、あの料率のデータが手に入ると結構助かるから挑戦してみようかと >>689
よくわかってらっしゃる。
PDFビュワーの文字列検索機能はどうやって実現してるのかよくわからん。
iTextPDFがゴミなだけなのか? >>690
PDF を、HTML に変換して、データを抜き出して、CSV にするとか? >>679
そんなこと言って労ぜず情報得ようとしても無駄だぞ
少しは自分の頭で考えろ、そんなだから脳ミソ退化するんだわ >>681
あの、自分いいすか、データあればって前提を出してきたの、おたくなんですが、、わら >>682
自分でやったら、という仮定はナンセンスだね
当然経験を積んだ上で発言している
それで言うならこの質問者はやってすらいないからね
とりあえずやってみてどういう課題があってどうして無理なのかくらい把握してから来いやほんまに >>694
今日日データセットで溢れかえってるとかデータがあれば後は〇〇するだけとか言ってたのは誰ですかね 偉そうに人に注文つけるだけならインチキ野郎でもできるから
発言の裏がとれない >>696
落ち着いて673をよく読め
データ溢れかえってるのもデータ集めたら実質終わりなのも事実だがな
ぶっちゃけキミまともな開発経験ないでしょ 673ってお前のレスじゃないだろペテン野郎
お前がおかしいって言ってる他人のレスだろ そりゃ696が噛み付いてる俺のレスの原因がそのレスなんだから当たり前だろ脳ミソ退化してんのか? 何なんだケンカする要素がどこにあるんだ
若いってことか((w´ω`w)) >>679
相手を説き伏せるために使うたとえって、結局自分の考えに都合よく沿うたとえしか出てこない。
おまけに、本来の議論から外れてたとえが適切かどうかみたいなことになる。
そこのところをわかってない、よく考えない人はたとえ話がわかりやすいと納得したり歓迎する。
昔、勤務先の会社で、会議の短縮・効率化が進めらたときに、たとえ話を多用すると退場ってことに
なった。
・よく考えない人を巻き込んで自分の味方にしようとする性格の人がよくやる。
・議論の対象をそのたとえたものと同様に見ていて、そのもので議論できない人なのだとわかる。
たとえ話はほどほどに。 >>701
> データ溢れかえってる
なら出せばいいのに、ガン無視してて笑うわ
> ぶっちゃけキミまともな開発経験ないでしょ
お前がなw 出すって何の話をしてるんだ
データの探し方が分かりましぇん教えてくだしゃぁいってことか?
偏差値20以上違うと会話できないというのは本当らしいな (1)
f(x) = (4x + √(4x^2 - 1)) / (√(2x + 1) + √(2x - 1))
のとき
f(1) + f(2) + f(3) + ... + f(60)
を求めなさい
(2)
p は素数
n は任意の自然数
であるとき
(1+n)^p - (n^p) - 1 が p で割り切れることを証明してください 「探し方」とか出せない言い訳は要らんよw
溢れてるならURLなりキーワードをサクっと書けばいいだけ >>701
> データ集めたら実質終わりなのも事実だがな
それあなたの感想ですよね >>707
> 偏差値20以上違うと会話できないというのは本当らしいな
間違ってるから他で言うなよw >>703
脳ミソの退化度合いとか経験とかで一々関係ないマウント取る必要ないでしょ
意見の筋が通っていれば皆納得するはずだからね まだやってんのかよこの話
偏差値はいいのかもしれないけど要領は悪そうだね >>709
前も言ったけど煽って労せず情報を得られると思うなよ甘えるな >>711
間違ってると思わせたければ俺と同じレベルで会話してくれ >>712
それをマウントと思ってしまうのならばお前はその程度ということだな >>714
要領の定義次第だな
自分にとって都合のいい情報を楽して手に入れられる相手を要領がいいと定義するならばその主張は正しくなるが >>715
> 前も言ったけど煽って労せず情報を得られると思うなよ甘えるな
出せない奴の定番やねw >>720
同意する
つまり俺とこのスレの有象無象は同じレベルではないのでこれは争いではないという事
素直に自分よりレベルが上の相手の言うことを聞けない無能共の喚き >>721
了解した、もう話さなくていいぞ
このスレを閉じることを許可する >>723
まあ一つ定量的に順位を付けるとしたら
このスレの中で年収の暫定一位は間違いなく俺だろうな 結局、知ったかして
> データ溢れかえってる
って書いたものの何も出せずに玉砕
って言ういつものパターンw 思い通りにコントロール出来なくて残念だったな
自分のレベルの低さを痛感するんだな >>729
レベルの低さを痛感したのでどうか脳みその足りない開発経験も無い私共にご教授下さい
>>667 の「適当に」切り出す所の具体的な方法をどうか教えていただけないでしょうか。
>>668 の学習データの生成方法についても具体的にお伺いしたいです。
あるいは既製の物を使うとしたら具体的にどのようなライブラリやデータセットが向いているでしょうか。 お前らいっつもpython以外のことで争ってんなw >>731
うるせーボケ
そのかわりコードを提示されたら大人しくしてるだろーが >>730
1.何をどう教えて欲しいのか、自分で理解して言語化してから出直せ
2.どう試してみて何故駄目だったのかを述べよ、さすれば解決策を提示してもよいが丸投げには答えない
3.これも2に同じ、まず自分で試せ、その上で教えを請うそれが正しい手順 >>733
1. 文中のfigやtabの記述を元に大体の位置を決定するのは分かったのですが、切り出すサイズの決め方をどの様にすれば出来るのか分からないのです。キーワードだけでもご教授頂けないでしょうか。
2. 生成タスクなのでGANをベースにしてGVXNを試しましたが、実際に有りそうな学習データが出来ませんでした。原因として思い当たる部分はありますでしょうか。
3. networkxとdoctrainデータセットを使っているのですが、学習がスムーズに進んでいない様に見えます。 >>735
まず切り出し対象を定義した方がよい
対象となるfigとtableの仕様をまとめるところから始めるんだ
アルゴリズムの考案やネットワークの選定はそれから >>737
人は余りにレベルの高すぎる対象を見た時、その高さを認識できず低いと誤認する >>738
キミは情報を与える段階に達していないことを自覚すべき
与えて欲しければまず対象の定義をしろ >>740
低能によくあるレス乙
ID:8Qa/il9IもID:3w0dPIZcも具体的に何も言えてない時点でレベルとかちゃんちゃらおかしいわw >>743
そうなのか
ならば低能が我々の真似事をしているのかも知れないな
具体的な指示は与えてやったのだから動くかどうかは好きにしろ 与えてやった?
低能ほど上から目線で語りたがるんだよな
そもそも
> 1. 文中のfigやtabの記述を元に
って書いてあるのに
> まず切り出し対象を定義した方がよい
とか頓珍漢なレスされてもなw >>745
事実としてレベルが上なのだから上から目線も何もない
キミは定義というものをした事がないのか
図表はカラーなのか等、対象の仕様を詳細に決定せよと言っている
これなら流石に無能でも分かるな? >>746
> 図表はカラーなのか等
モノクロ256階調でいいよ
さて次は何を定義すればいいんだ?
また
> 前も言ったけど煽って労せず情報を得られると思うなよ甘えるな
とかでごまかすのかな?w >>747
等という文字が読めないのか
エッセンスはそれで合っているから
後は自分で必要十分なだけ仕様を定義しな >>749
黙ってNGに突っ込むくらい出来ないのか無能は >>748
> 後は自分で必要十分なだけ仕様を定義しな
はい、逃げたーw 無能とは本当に会話が成立しないな
ちゃんと必要十分なだけ定義が出来れば俺は逃げたりはしない
そちらが定義から逃げようとしているのであろう?
往々にして定義をしたがらない奴は無能である >>753
自分の今朝の行動(>>699)を忘れてしまっていることかな?
その他の騒いでいる問題はさらにくだらないことだからスルーしておくべし。 ■ このスレッドは過去ログ倉庫に格納されています