从word文档中刮取文本和图像

时间:2014-04-23 15:17:56

标签: java python ruby ms-word

我一直试图从word文档中抓取文本和图像(2003,07,10)

文档由问题和答案组成,我需要抓取文档并相应地检索它们。

我尝试使用MS-WORD 2013将.doc转换为.html,即文件 - > SaveAs - > html,然后将其删除。

我需要你的帮助和宝贵的建议,

使用任何编程语言将doc转换为包含其中图像的html [我有Java和Java的经验; Python]以及实际上有效的。

有没有办法解析.doc而不转换为.html并从中刮掉。

您可以在此处找到文件:http://bit.ly/1ifjps9
[包括.htm,.doc和图片]

0 个答案:

没有答案