我一直在努力将IIHF PDF(例如:http://stats.iihf.com/Hydra/349/IHM349131_74_3_0.pdf)转换为可解析的形式。
现在我终于做到了,因为Google的缓存存储了一个HTML版本(http://webcache.googleusercontent.com/search?q=cache:http://stats.iihf.com/Hydra/349/IHM349131_74_3_0.pdf),并且可以轻松解析。
唯一的问题是,Google不会缓存他们拥有的所有PDF,即使他们缓存了文件,也可能需要数天时间才能显示。
有没有办法通过任何API甚至手动获取这些HTML版本?
编辑:这些PDF以某种方式损坏了字符映射,因此普通的PDF到HTML转换器无法转换它们。忘了说。