应用错误收集

通过谷歌PDF到HTML？

时间：2013-05-01 13:48:00

标签： php html pdf

我一直在努力将IIHF PDF（例如：http://stats.iihf.com/Hydra/349/IHM349131_74_3_0.pdf）转换为可解析的形式。

现在我终于做到了，因为Google的缓存存储了一个HTML版本（http://webcache.googleusercontent.com/search?q=cache:http://stats.iihf.com/Hydra/349/IHM349131_74_3_0.pdf），并且可以轻松解析。

唯一的问题是，Google不会缓存他们拥有的所有PDF，即使他们缓存了文件，也可能需要数天时间才能显示。

有没有办法通过任何API甚至手动获取这些HTML版本？

编辑：这些PDF以某种方式损坏了字符映射，因此普通的PDF到HTML转换器无法转换它们。忘了说。

0 个答案:

没有答案