是否可以在不下载文件(Java,Python或其他语言)的情况下读入并解析链接到网站的.docx文件?

时间:2014-06-19 15:27:40

标签: java python xml regex docx

我想编写一个解析在线.docx文件的程序来构建XML文档。我知道(或者至少我认为我知道)浏览器需要一个插件才能在浏览器中查看.docx,但我不熟悉插件或工作方式。在Notepad ++中查看.docx文件后,我似乎很清楚我将无法解析二进制数据。有没有办法模拟.docx文件的打开我的目的(编辑:即没有下载并将文件保存到我的硬盘驱动器)在任何语言或库的能力范围内?

我的问题更多是关于打开文件而不下载而不是实际解析它,因为我已经研究了用于在Java中解析文档的Apache POI API。

2 个答案:

答案 0 :(得分:4)

让我试着说清楚。

如果您正在查看它,那么您已经下载了它。您正在“下载”此网页,以便您的浏览器呈现它。您正在“下载”指向文档的链接,该文档会告诉您存在文档。除非您下载文档,否则无法查看该文档。

是的,你必须下载它。

下载文件只是从远程服务器获取文件。

当然,您不必写入您的硬盘。您可以下载它并将其存储在内存中,然后从内存中处理它。

打开连接后,您将获得一个InputStream对象来读取字节。您可以将其传递到Apache POI库中以读取文件。

答案 1 :(得分:-1)

虽然上述答案在技术上是正确的,但我相信你所问的是屏幕抓取,你可以开始here