应用错误收集

我使用Apache PDFbox和iText从pdf中提取文本。但是提取的文本都是完全非结构化和混乱的

这是

enter image description here

但提取的文本是::

111111 1111111111111111111111111111111111111111111111111111111111111
（US）美国专利（10）专利号：US   8,631,488 B2
Oz等。
（45）专利日期：2014年1月14日
6,813,682 B2 1112004 Bress等。
（54）系统和方法   提供单位7,065,644 B2 Daniell等。
6/2006
  在权力期间的安全服务
托德等人。
7,076,690 Bl   7/2006
管理模式
7,086,089 B2 8/2006 Hrastar等。
7,184,554 B2 2/2007 Freese
（75）发明人：Ami Oz，Azur   （IL）; Shlomo Touboul，
7,283,542 B2
10/2007 Mitchell
  7,353,533 B2 Wright等。
Kefar Haim（IL）4/2008
Maufer等   al。
7,359,983 Bl 4/2008
7,360,242 B2 4/2008 Syvanne
（73）   受让人：CUPP Computing AS，Bergen（NO）
7,418,253 B2 8/2008   Kavanagh
（续）
通知：根据任何免责声明，   本（*）
专利的期限根据35的规定予以延长或调整   外国专利文件
美国154（b）到656天。我2000078008   12/2000
应用编号：12 / 535,650
（21）
WO 2004030308   4/2004
（22）提交日期：2009年8月4日
其他出版物Breeden   H，John等人，“A Hardware FirewallYou TakeWithYou”，（65）Prior   出版数据
政府计算机新闻，位于   http：/gcn.com！文章/
美国2010/0037321 Al 2010年2月11日   2005/06/0 11A-hardware-firewall-you-take-with-you.aspx？p~1，Jun。
  1,2005。

为什么会这样？怎么解决这个问题？

为什么使用PDF文本提取器（如PDFBox，itext）从PDF中提取的文本是分散和非结构化的？

1 个答案: