c#将pdf转换为html

时间:2011-11-14 15:23:21

标签: c# html pdf dll

我是否可以使用.dll将.pdf文件用作输入和.html文件作为输出? 我想将.pdf转换为.html。我的同事说,逐步进行,从pdf获取文本/字体/图像/边距/链接等,然后创建具有相同内容的新html文件非常困难。他说这几乎是不可能的。所以我在想 - 如果有一些dll我可以作为参考来做到这一点?

3 个答案:

答案 0 :(得分:10)

编写程序来完成它绝对不是一件容易的事。如果你没有找到任何.NET库来执行此操作(我不能,至少不是免费的),我只需要download this并以编程方式调用它来获取我的html。

如果您有空闲时间和/或PDFToHtml无法为您生成可接受的输出,您可以use iText自行编写程序。这是一个非常成熟的免费pdf库。我过去曾用它来操作PDF(合并,创建等)。

<强>更新

正如Quandary的评论所指出的,与iText提供的商业或AGPL许可相比,PDFSharp库提供了更宽松的许可(MIT)。选择图书馆时请记住这一点。我自己没有使用过PDFSharp库,我不知道它们在功能方面的比较。

答案 1 :(得分:8)

您可以下载此免费工具:PDFToHTML

然后在你的程序中只需分叉一个新进程并运行传递PDF文件的可执行文件。我现在只是测试它,它似乎工作正常。

答案 2 :(得分:6)

如果您不介意付款,Aspose提供了一个非常好的解决方案,这就是我们在公司使用的。

http://www.aspose.com/categories/.net-components/aspose.pdf-for-.net/key-features.aspx