我们正在使用LAMP开发一个基于社交媒体网站的需求。
为此我们想在PHP中进行Resume / CV解析。
我们能够解析电子邮件ID和电话,但不知道如何从简历中解析其他信息,如全名,地址,教育,就业等。
Plus resume / CV可以采用各种格式,如doc,html,rtf,txt等。
任何人都知道PHP脚本,我们可以抓取数据。或任何发展的想法,以启动。
提前致谢。
答案 0 :(得分:4)
我会看看现有的简历解析器是否有可以使用的API,或者您可以添加到框架的自定义挂钩。查看Sovren或TextKernel
根据Sovren的网站,他们引用:
一旦您的SovrenConvertAndParse Web服务的实例是 运行时,您将通过SOAP访问它。几乎所有的编程 环境能够自动创建Web服务客户端或 Web服务的WSDL自动执行Web服务代理。我们也 为某些环境(如PHP)提供示例客户端。在任何情况下, 创建Web服务客户端应该是一个非常快速的任务:通常是一个 几分钟,也许几个小时。
创建Web服务客户端后,您可以调用一个 Web服务上的方法,用于转换和解析一个简历 操作,接收HR-XML输出。
http://www.sovren.com/sovren-products-parser-implementation.php
http://www.sovren.com/sovren-products-web-service.php
TextKernel引用:
所有类型文件的文件处理(DOC,DOCX,PDF,RTF, HTML,TIFF,TXT,XML,MSG和EML类型文档)。 Textkernel提供以下11种语言:英语,德语,法语,荷兰语,西班牙语,瑞典语,丹麦语,波兰语,罗马尼亚语,意大利语,斯洛伐克语。
他们的网络界面似乎叫做Sourcebox:
Sourcebox完全可以使用Extract!,Textkernel的CV进行配置 解析软件。
Sourcebox有一个多语言的网络界面供员工管理 CV队列并手动检查并更正异常。
Sourcebox可用作许多领先CRM,ATS的界面, 匹配引擎,HRMS系统和您自己的网站或招聘 门户。
http://www.textkernel.com/hr_solutions.php?nav=sourcebox
他们似乎都很有希望利用而不必在这里重新发明轮子,尤其是使用PHP。