这不完全是一个编程问题,所以我不确定在这里发帖是否合适?
无论如何,我已经写了一个PDF文本提取器,我正在寻找用于测试它的棘手的PDF。我在网上广泛搜索了所有已找到工作的PDF文件。
但是,我知道还有一些我尚未测试。
例如,我似乎无法找到一个带有CID字体的PDF,而这个字体缺少一个" ToUnicode"条目。
此外,我似乎无法找到任何带有棘手或令人困惑的PostScript的PDF。
任何人都可以推荐吗?
答案 0 :(得分:1)
您可以开始使用这些(简单但棘手的)手写PDF进行测试:
要使用删除了某些/ToUnicode
表格的真实PDF文件进行测试,请参阅此处: