应用错误收集

如何从pdf和doc文件中提取文本而无需下载

时间：2016-02-18 08:13:39

标签： java pdf web-crawler doc

在问这个问题之前，我已经搜索了很多。我有一个程序（ java ）抓取一些wep页面并试图找到一些 .doc 和 .pdf 文件，它可以下载它们，但只有一个.pdf或.doc可以覆盖3-4MB这是不好的，因为有数百万的文件..所以我决定提取他们的文本而不下载整个文件。基本上，我需要在线查看pdf或doc文件并仅下载他们的文本，但我无法弄清楚如何做到这一点。如有必要，我可以提供我的代码。

编辑：这个问题现在可以关闭，因为我有了想法和（没有）解决方案。谢谢你的帮助。

这些降级的问题是什么？

2 个答案:

答案 0 :(得分：2)

这是不可能的。您只能在下载字节后开始提取文档。

（除非您还可以控制服务器，否则可以执行提取服务器端并提供txt下载链接）

答案 1 :(得分：1)

从互联网上的网站读取文件而不下载它是不可能的。

如果您拥有对服务器的控制权，您可以编写一个Web服务，该服务可以按需解析文件并提取您感兴趣的部分，然后将其发送给客户端。

如果没有，如果你想要解决一个更具挑战性的问题，你可以编写一个HTTP客户端，开始下载文件并动态解析它，只需要下载尽可能多的内容来提取部分（ s）你需要。这可能是也可能不可行（或有价值）取决于文件中的位置＆＃34;有趣＆＃34;位被定位。如果他们在大多数情况下接近开头，那么您可以显着减少下载量。

如何完成此操作的详细说明可能超出了StackOverflow应答长度的指导原则。