我想要做的很简单:给定一个包含纸张/书籍的PDF / PS / DjVu文件,找到论文的作者和标题(任何其他元数据都会很好,但不太需要)。这种认可不一定是完美的,但我想尽我所能。我正在寻找允许访问这些文件的元数据和内容的开源.NET和/或Java库(最好是.NET)。
对于PDF,我发现PDFBox(.NET / Java)和PDF Library(.NET),但可能有更好的替代方案我不知道;对于Postscript和DjVu,我还没有找到任何东西。
答案 0 :(得分:1)
对于大多数PDF操作,我们使用iTextSharp。这是原始Java实现的一个端口。
答案 1 :(得分:1)
另一个PDF库是PDFSharp。它具有相当不错的读/解析功能。
答案 2 :(得分:1)
对于DjVu,您可以使用CamiNova中的商业SDK或开源库DjVu Libre。
答案 3 :(得分:0)
对于Djvu,您可以使用位于https://github.com/Telavian/DjvuNet
的C#库