应用错误收集

时间：2012-10-13 11:57:29

标签： c# java pdf pdf-generation pdf-manipulation

我想开发一个商业用途工具（我打算出售它），其中包括操作文档文件。

操纵将包括： 1.将多个PDF文件连接成一个。 2.将doc / docx文件转换为PDF文件。 3.将单个PDF文件分成2个单独的PDF文件。 4.对PDF文件的页面进行编号（使用顺序运行的数字）。

就此而言，我正在寻找一个免费的库或代码来帮助我处理PDF操作。我更喜欢库在C＃中，因为我的软件将在C＃中，因为它有一些GUI，但我也会使用JAVA库...

我找到了“pdftk”库，它可以帮到我很多，但不幸的是它的许可证不允许商业用途....

有没有人知道可以帮助我的免费图书馆或代码？

非常感谢!!

答案 0 :(得分：1)

如果您想使用java操作PDF，PDFBox是不错的选择。

另外，您可以查看支持java和C＃的itextpdf。该图书馆有社区版本。

答案 1 :(得分：1)

它提供了一个用于将PDF文件的内容提取到文本文件中的选项。与其他库相比，它突出的地方在于它保留了提取的文本文件中PDF文件的格式。当PDF包含表格等结构数据且PDF文件未标记时，这非常有用。 PDFBox和其他库在解析时无法维护PDF内容的结构。

从PDF中提取文本文件后，您可以使用自己喜欢的编程语言来解析文本文件。

在此处查看许可证政策：http://www.glyphandcog.com/Xpdf.html。它清楚地表明，如果您在不修改源代码的情况下直接使用可执行文件，则可以自由地重新分发使用可执行文件的应用程序。如果不考虑性能，则无需触摸其源代码。

如果需要考虑性能，您可以创建应用程序的试用版，突出显示功能，但自然很慢，因为每次要处理PDF时它都会运行可执行文件。付费版本可以直接调用pdftotext api，速度更快。您可以非常轻松地弥补许可费用。如果我是你，我会这样做，但我现在已经在我的盘子上有一些大项目:)

我可以保证pdftotext，因为我自己使用过它。所有其他库似乎忘记了用户可能有兴趣保持PDF文件的格式不变。