我们有多个PDF,其中包含帐户表和资产负债表。我们尝试了很多转换器但效果不理想。任何人都可以建议任何好的转换器,将PDF的内容复制到HTML中的精确结构。如果有任何付费转换器,请建议我。
This is the PDF we want to convert and Show in html "http://www.marico.com/html/investor/pdf/Quarterly_Updates/Consolidated%20Financial%20Results%20-%20Q3FY11.pdf"
答案 0 :(得分:1)
它也是开源的,因此它是免费的,如有必要可以修改。
甚至还有一个演示版显示了之前的PDF和HTML之后的版本。如果你问我就不错。
如果您对PDF中的表有特别的问题,可能问题就在于表本身以及用于生成它们的任何程序。并非所有PDF都是平等的。
另外: 请注意,多年来我创建并遇到的所有PDF在复制/粘贴文本块/文本行时遇到了很多问题任何给定页面上相同或更高高度的其他块/文本行。我认为Acrobat缺乏定义在什么(或大多数程序没有正确使用它)之后选择块的“序列顺序”的能力,因此系统sorta从上到下,从左到右的方式移动选择内容.....即使这意味着跳过大的空白区域或者在您不期望的情况下一次从多个列中抓取线条。这可能是表格数据问题的一部分。你这里的薄弱环节是PDF格式本身,我想也许你可能期待它太多了。将任何内容转换为PDF几乎都是单行道,特别是当您开始将大量可编辑文本放入其中时。
答案 1 :(得分:0)
你试过http://www.jpedal.org/html_index.php - 还有一个免费的在线版