出処が様々なPDFの情報をまとめてデータ化したいなら、ページごとにラスタ画像に変換してからPDFに戻して、それをGoogle Driveにでも突っ込むンだねぇ
それ以上の精度を期待するなら、まずPDFの仕様書を理解できるまで読み込んで、サンプルになるPDFを何十個か調べてみて、
PDFの内部構造と見た目とセマンティクスがいかに一致しないかを理解した上で先に進むべきか考えるといい