查找用于文本提取的测试PDF?

时间:2015-04-07 18:22:53

标签: pdf testing

这不完全是一个编程问题,所以我不确定在这里发帖是否合适?

无论如何,我已经写了一个PDF文本提取器,我正在寻找用于测试它的棘手的PDF。我在网上广泛搜索了所有已找到工作的PDF文件。

但是,我知道还有一些我尚未测试。

例如,我似乎无法找到一个带有CID字体的PDF,而这个字体缺少一个" ToUnicode"条目。

此外,我似乎无法找到任何带有棘手或令人困惑的PostScript的PDF。

任何人都可以推荐吗?

1 个答案:

答案 0 :(得分:1)

您可以开始使用这些(简单但棘手的)手写PDF进行测试:

要使用删除了某些/ToUnicode表格的真实PDF文件进行测试,请参阅此处: