使用PDFBox API进行PDF内容验证 - Java

时间:2016-06-17 07:20:35

标签: java html5 selenium selenium-webdriver pdfbox

我有一个要求,比如将PDF内容与HTML5内容进行比较。 即,在我们的应用程序中,我们有一个模块,我们将PDF文件转换为HTML5内容。简单来说,将PDF内容发布到网上。

因此,我们尝试使用Selenium Web Driver将PDF(源)自动化为HMTL5(目标)内容比较。在搜索此要求时,我必须了解PDF Box API,对其进行了探索并得出以下假设:

  • 我们可以从PDF中提取所有页面的文本,甚至可以从特定范围中提取
  • 图像也可以单独提取并保存到本地计算机

但我们的要求就像节点到节点的比较。我们有一些检查点,如text&图像对齐,字体颜色/样式/大小以及要验证的表。网页应该模仿PDF文档中的内容。

请确认是否可以通过PDF Box实现,如果您可以分享任何建议,也会很棒。谢谢!

0 个答案:

没有答案