我想编写一个解析在线.docx文件的程序来构建XML文档。我知道(或者至少我认为我知道)浏览器需要一个插件才能在浏览器中查看.docx,但我不熟悉插件或工作方式。在Notepad ++中查看.docx文件后,我似乎很清楚我将无法解析二进制数据。有没有办法模拟.docx文件的打开我的目的(编辑:即没有下载并将文件保存到我的硬盘驱动器)在任何语言或库的能力范围内?
我的问题更多是关于打开文件而不下载而不是实际解析它,因为我已经研究了用于在Java中解析文档的Apache POI API。
答案 0 :(得分:4)
让我试着说清楚。
如果您正在查看它,那么您已经下载了它。您正在“下载”此网页,以便您的浏览器呈现它。您正在“下载”指向文档的链接,该文档会告诉您存在文档。除非您下载文档,否则无法查看该文档。
是的,你必须下载它。
下载文件只是从远程服务器获取文件。
当然,您不必将写入您的硬盘。您可以下载它并将其存储在内存中,然后从内存中处理它。
打开连接后,您将获得一个InputStream
对象来读取字节。您可以将其传递到Apache POI库中以读取文件。
答案 1 :(得分:-1)
虽然上述答案在技术上是正确的,但我相信你所问的是屏幕抓取,你可以开始here。