我使用Apache PDFbox和iText从pdf中提取文本。但是提取的文本都是完全非结构化和混乱的
这是
但提取的文本是::
111111 1111111111111111111111111111111111111111111111111111111111111
(US)美国专利(10)专利号:US 8,631,488 B2
Oz等。
(45)专利日期:2014年1月14日
6,813,682 B2 1112004 Bress等。
(54)系统和方法 提供单位7,065,644 B2 Daniell等。
6/2006
在权力期间的安全服务
托德等人。
7,076,690 Bl 7/2006
管理模式
7,086,089 B2 8/2006 Hrastar等。
7,184,554 B2 2/2007 Freese
(75)发明人:Ami Oz,Azur (IL); Shlomo Touboul,
7,283,542 B2
10/2007 Mitchell
7,353,533 B2 Wright等。
Kefar Haim(IL)4/2008
Maufer等 al。
7,359,983 Bl 4/2008
7,360,242 B2 4/2008 Syvanne
(73) 受让人:CUPP Computing AS,Bergen(NO)
7,418,253 B2 8/2008 Kavanagh
(续)
通知:根据任何免责声明, 本(*)
专利的期限根据35的规定予以延长或调整 外国专利文件
美国154(b)到656天。我2000078008 12/2000
应用编号:12 / 535,650
(21)
WO 2004030308 4/2004
(22)提交日期:2009年8月4日
其他出版物Breeden H,John等人,“A Hardware FirewallYou TakeWithYou”,(65)Prior 出版数据
政府计算机新闻,位于 http:/gcn.com!文章/
美国2010/0037321 Al 2010年2月11日 2005/06/0 11A-hardware-firewall-you-take-with-you.aspx?p~1,Jun。
1,2005。
为什么会这样?怎么解决这个问题?
答案 0 :(得分:2)
PDF格式旨在允许正确显示和打印文档,而不允许对文本内容进行结构化访问。从PDF文档中提取文本类似于通过OCR软件运行打印页面。您可能不必识别字形并将其转换为字符,但必须估计文档的结构和逻辑文本流。
如果您不使用天真的文本提取示例,iText和PDFBox(如果我没记错的话)会为您提供更详细的文档元素访问权限。在这种情况下,您既需要文本内容,也需要页面上的位置才能以有意义的方式重建内容。