应用错误收集

时间：2014-02-24 17:41:43

标签： java xml xml-parsing jdom .doc

我想解析简历以获得不同的标题和内容，其中包括项目符号，段落，网址。我有.doc / .docx格式的简历。到目前为止的研究已经导致了

1.从.doc文件中构建一个xml文件然后再生 2.使用JDOM构建一个xml解析器。

有没有其他方法或更好的方法来做到这一点？一些有助于识别简历中结构的算法？

答案 0 :(得分：0)

有趣 - 我在解决方案中工作，我们使用Solr来识别我的身份。

另一种方法是 - 您可以使用Apache Solr / index文档，并获取分面搜索。

唯一的挑战是如何建立图书馆。这将比Apache POI短得多，也更简单

如果您需要帮助，请告诉我？

答案 1 :(得分：-1)

看起来你正朝着正确的方向前进。简单的方法是：一旦识别出信息并进一步移动，您只需要根据计算空间的+/-步进行横向，并确定结果。

我确信您使用的是NLP方法，它可以帮助您获取邻近数据，然后您可以根据您的经验消除噪音。

或简单地去做一些已经建立的。我建议你RChilli CV Parsing或其他人，如可雇佣性或苏维尔，并讨论你的需要。我相信你会得到一些信息

感谢 -K