c# - pdf以编程方式提供单词

时间:2010-01-18 01:16:14

标签: c# pdf ms-word

有没有人知道以编程方式将PDF文件转换为单词.doc文件(不是docx)的好方法?我已经尝试过SautinSoft的解决方案,但即使它完成了这项工作,也不是最好的质量。

4 个答案:

答案 0 :(得分:2)

和“解决方案”一样,可能是一种方法,但你必须自己深入研究:

PDF文件格式......很难理解。首先,它根本无法与Word格式进行比较。它的格式旨在在所有平台和打印机上产生一致的外观,其中的Word不太严格。

首先,编辑PDF文件也很困难:因为你没有Word中的“text”;它更像是大块的字母。这些都是单独定位的。

我看到的唯一 doable 解决方案如下:

  1. 将PDF渲染为图像。 (因此需要PDF渲染库!)
  2. 将此图片附加到.doc。 (因此需要.DOC写作库!)
  3. 我认为这也是SautinSoft所做的事情;这就是它质量差的原因。如果你想要高质量的图像(即你无法获得像通用字体或重复图形那样的优化,就像你拥有PDF文件一样),图像会变得非常庞大。

答案 1 :(得分:1)

我们提供了一个名为EasyConverter SDK的解决方案,您可以尝试一下:

http://www.pdfonline.com/easyconverter/sdk/index.htm

如果您想在尝试评估版本之前快速了解结果的样子,可以先在线使用在线转换器:

http://www.pdfonline.com/pdf2word/index.asp

将PDF等主要静态格式转换为Word时,确实需要考虑很多因素。 EasyConverter SDK适用于大多数商业文档,而营销文档(通常使用更高级的布局)通常更具挑战性。

答案 2 :(得分:1)

将PDF转换为SVG并将SVG嵌入Word文档中。

答案 3 :(得分:0)

PDF是一种'endfile'显示格式,因此它会丢弃word文件中需要的大量细节(例如流)。有工具,但你不可能对结果完全满意。

有一篇博文在http://pdf.jpedal.org/java-pdf-blog/bid/12670/PDF-text

更好地解释了这些问题