我希望有人可以帮助解析MS Word。基本上我需要解析Word文档的内容并使用结果值来形成一个地图。实际上Word会有这样的内容:
Key1: Value1
Key2: Value2
KeyKey1: Key11: Value11
Key12: Value12
KeyKey2:
Key21: Value21
Key22: Value22
文档将具有表或键值对(也是键 - 键值)。我们需要识别或区分密钥和密钥。 keykey,需要解析文档并将其插入到地图中。目前我正在研究手动解析,这看起来像是对数值的硬编码。例如,如何将key1与keykey1和key1从keykey2区分开来
请提出一些方法来解析word文档或库的内容,以便用C#或Java进行解析。
任何帮助将不胜感激。提前谢谢。
答案 0 :(得分:1)
您需要查看文档的内容吗?为此,您可以将Apache POI与Java一起使用。我们在应用程序中使用它没有任何问题。我们都读取和写入Word和Excel文档。文档非常完整,API非常简单。
答案 1 :(得分:1)
目前最好的图书馆是Apache tika也是如此。它支持多种文档类型,并且只涉及编写几行代码。你可以阅读这篇文章 http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika 如果你忽略了与solr相关的代码,那么提取pdf内容的代码只有5-6行。
答案 2 :(得分:0)
您可以查看Java API For Microsoft documents来解析Java中的word文档。