我一直试图从word文档中抓取文本和图像(2003,07,10)
文档由问题和答案组成,我需要抓取文档并相应地检索它们。
我尝试使用MS-WORD 2013将.doc转换为.html,即文件 - > SaveAs - > html,然后将其删除。
我需要你的帮助和宝贵的建议,
使用任何编程语言将doc转换为包含其中图像的html [我有Java和Java的经验; Python]以及实际上有效的。
有没有办法解析.doc而不转换为.html并从中刮掉。
您可以在此处找到文件:http://bit.ly/1ifjps9
[包括.htm,.doc和图片]