为什么使用PDF文本提取器(如PDFBox,itext)从PDF中提取的文本是分散和非结构化的?

时间:2014-01-15 13:30:05

标签: java pdf itext pdfbox

我使用Apache PDFbox和iText从pdf中提取文本。但是提取的文本都是完全非结构化和混乱的

这是

enter image description here

但提取的文本是::

  

111111 1111111111111111111111111111111111111111111111111111111111111   
(US)美国专利(10)专利号:US   8,631,488 B2
Oz等。
(45)专利日期:2014年1月14日   
6,813,682 B2 1112004 Bress等。
(54)系统和方法   提供单位7,065,644 B2 Daniell等。
6/2006
  在权力期间的安全服务
托德等人。
7,076,690 Bl   7/2006
管理模式
7,086,089 B2 8/2006 Hrastar等。   
7,184,554 B2 2/2007 Freese
(75)发明人:Ami Oz,Azur   (IL); Shlomo Touboul,
7,283,542 B2
10/2007 Mitchell
  7,353,533 B2 Wright等。
Kefar Haim(IL)4/2008
Maufer等   al。
7,359,983 Bl 4/2008
7,360,242 B2 4/2008 Syvanne
(73)   受让人:CUPP Computing AS,Bergen(NO)
7,418,253 B2 8/2008   Kavanagh
(续)
通知:根据任何免责声明,   本(*)
专利的期限根据35的规定予以延长或调整   外国专利文件
美国154(b)到656天。我2000078008   12/2000
应用编号:12 / 535,650
(21)
WO 2004030308   4/2004
(22)提交日期:2009年8月4日
其他出版物Breeden   H,John等人,“A Hardware FirewallYou TakeWithYou”,(65)Prior   出版数据
政府计算机新闻,位于   http:/gcn.com!文章/
美国2010/0037321 Al 2010年2月11日   2005/06/0 11A-hardware-firewall-you-take-with-you.aspx?p~1,Jun。
  1,2005。

为什么会这样?怎么解决这个问题?

1 个答案:

答案 0 :(得分:2)

PDF格式旨在允许正确显示和打印文档,而不允许对文本内容进行结构化访问。从PDF文档中提取文本类似于通过OCR软件运行打印页面。您可能不必识别字形并将其转换为字符,但必须估计文档的结构和逻辑文本流。

如果您不使用天真的文本提取示例,iText和PDFBox(如果我没记错的话)会为您提供更详细的文档元素访问权限。在这种情况下,您既需要文本内容,也需要页面上的位置才能以有意义的方式重建内容。