标签: pdf extract
我需要消化一些格式错误的PDF文档。它没有索引,这使得导航文件非常困难。
如何从PDF中提取所有字符串,其字体大小大于某个值,例如20px和页码,总是在同一个位置?
有了这些信息,我可以自己创建索引。