pythonで様々なpdf資料から情報を取り出したいと思ってます.
pdf資料は主に英字論文で,文字,図,式などが混在しているものを扱います.
既存のライブラリだとpdfの種類や図や式などの煩雑性から正確に抽出してくれないのではないかと思っており,いっそディープラーニングで抽出してくれるようなものを作ろうかと思ってます.この程度でディープラーニングを使うのはやりすぎでしょうか?
またおすすめのウェブサイトや文献があれば教えていただけると助かります.