我想解析简历以获得不同的标题和内容,其中包括项目符号,段落,网址。我有.doc / .docx格式的简历。到目前为止的研究已经导致了
1.从.doc文件中构建一个xml文件然后再生 2.使用JDOM构建一个xml解析器。
有没有其他方法或更好的方法来做到这一点? 一些有助于识别简历中结构的算法?
答案 0 :(得分:0)
有趣 - 我在解决方案中工作,我们使用Solr来识别我的身份。
另一种方法是 - 您可以使用Apache Solr / index文档,并获取分面搜索。
唯一的挑战是如何建立图书馆。这将比Apache POI短得多,也更简单
如果您需要帮助,请告诉我?
答案 1 :(得分:-1)
我确信您使用的是NLP方法,它可以帮助您获取邻近数据,然后您可以根据您的经验消除噪音。
或简单地去做一些已经建立的。我建议你RChilli CV Parsing或其他人,如可雇佣性或苏维尔,并讨论你的需要。我相信你会得到一些信息
感谢 -K