PDFの文字とは書いてあるけど、テキストデータとして存在しているとは限らないしね。
以前tesseractでバーコードからアウトライン化された文字列をOCRしてみたが、
数字限定で処理してもバーが入っているだけでうまくいかないし。(バーを1として認識してしまう)