如何从pdf和doc文件中提取文本而无需下载

时间:2016-02-18 08:13:39

标签: java pdf web-crawler doc

在问这个问题之前,我已经搜索了很多。我有一个程序( java 抓取一些wep页面并试图找到一些 .doc .pdf 文件,它可以下载它们,但只有一个.pdf或.doc可以覆盖3-4MB这是不好的,因为有数百万的文件..所以我决定提取他们的文本而不下载整个文件。基本上,我需要在线查看pdf或doc文件并仅下载他们的文本,但我无法弄清楚如何做到这一点。如有必要,我可以提供我的代码。

编辑:这个问题现在可以关闭,因为我有了想法和(没有)解决方案。 谢谢你的帮助。

这些降级的问题是什么?

2 个答案:

答案 0 :(得分:2)

这是不可能的。您只能在下载字节后开始提取文档。

(除非您还可以控制服务器,否则可以执行提取服务器端并提供txt下载链接)

答案 1 :(得分:1)

从互联网上的网站读取文件而不下载它是不可能的。

如果您拥有对服务器的控制权,您可以编写一个Web服务,该服务可以按需解析文件并提取您感兴趣的部分,然后将其发送给客户端。

如果没有,如果你想要解决一个更具挑战性的问题,你可以编写一个HTTP客户端,开始下载文件并动态解析它,只需要下载尽可能多的内容来提取部分( s)你需要。这可能是也可能不可行(或有价值)取决于文件中的位置"有趣"位被定位。如果他们在大多数情况下接近开头,那么您可以显着减少下载量。

如何完成此操作的详细说明可能超出了StackOverflow应答长度的指导原则。