我想开发一个商业用途工具(我打算出售它),其中包括操作文档文件。
操纵将包括: 1.将多个PDF文件连接成一个。 2.将doc / docx文件转换为PDF文件。 3.将单个PDF文件分成2个单独的PDF文件。 4.对PDF文件的页面进行编号(使用顺序运行的数字)。
就此而言,我正在寻找一个免费的库或代码来帮助我处理PDF操作。 我更喜欢库在C#中,因为我的软件将在C#中,因为它有一些GUI,但我也会使用JAVA库...
我找到了“pdftk”库,它可以帮到我很多,但不幸的是它的许可证不允许商业用途....
有没有人知道可以帮助我的免费图书馆或代码?
非常感谢!!
答案 0 :(得分:1)
答案 1 :(得分:1)
在http://www.foolabs.com/xpdf/download.html查看pdftotext。
它提供了一个用于将PDF文件的内容提取到文本文件中的选项。与其他库相比,它突出的地方在于它保留了提取的文本文件中PDF文件的格式。当PDF包含表格等结构数据且PDF文件未标记时,这非常有用。 PDFBox和其他库在解析时无法维护PDF内容的结构。
从PDF中提取文本文件后,您可以使用自己喜欢的编程语言来解析文本文件。
在此处查看许可证政策:http://www.glyphandcog.com/Xpdf.html。它清楚地表明,如果您在不修改源代码的情况下直接使用可执行文件,则可以自由地重新分发使用可执行文件的应用程序。如果不考虑性能,则无需触摸其源代码。
如果需要考虑性能,您可以创建应用程序的试用版,突出显示功能,但自然很慢,因为每次要处理PDF时它都会运行可执行文件。付费版本可以直接调用pdftotext api,速度更快。您可以非常轻松地弥补许可费用。如果我是你,我会这样做,但我现在已经在我的盘子上有一些大项目:)
我可以保证pdftotext,因为我自己使用过它。所有其他库似乎忘记了用户可能有兴趣保持PDF文件的格式不变。