我的朋友问我是否可以编写一个能够从工作广告中识别相关关键字的程序,了解3个变量:行业,职称和工作发布文本(例如下面的例子)。
从求职者的角度来看,我们试图解决的问题是,在每份求职申请的简历中都有正确的关键词,从而增加了获得面试的机会。当通过机器人扫描关键字完成第一阶段筛选时,这一点尤其重要。
最初我正在考虑一个包含所有行业,所有职位及其相关关键字的关系数据库。然而,这是一项艰巨的任务,信息和生物技术等先进领域的数据很快就会变得陈旧。
似乎机器学习和自然语言处理是不可避免的。
考虑下面一家寻求出纳员的银行招聘广告:
您是一位经验丰富的银行柜员,寻求完美的工作生活 平衡?如果你正在寻找休闲时间并且有绝对的 对客户服务的热情,那么这就是你的角色!
我们的客户服务昆士兰公务员(特别是 昆士兰警察局);目前正在寻求银行柜员加入 他们的布里斯班CBD队伍尽快开始。
成功的候选人将被要求从上午9:30起工作 因此,周一至周五下午2:30,每周25小时。基于 体验成功的候选人将支付(约)25美元 - 每小时$ 27 +退休金。
这个职位是偶然/临时的,有可能获得一个 永久安置(根据任务的性能/长度等)。
职责&责任:
作为银行出纳员,您需要:
以卓越的专业和高效率为客户服务 方式;处理存款和存款等基本交易 取款;完成复杂的交易,如贷款和 抵押贷款;将推荐转交给销售团队(无销售);大量的 现金处理;确保对细节的高度重视是最重要的 你的清单!技能与技能经验人士:
成功的候选人将拥有以下内容:
以前的出纳员经验(近5年)IDEAL;以前 客户服务经验(财务内部)理想;能够工作 节奏快,时间紧迫的环境;优秀的演示 和态度;对细节的特别关注;能够快速 '掌握'多个软件包;和强大的时间管理技能 和自主工作的能力。如果你吹嘘自己太棒了 客户服务技巧,专业的态度,优先出纳员工 我们很乐意听到您的经验!
如果我是招聘经理(或机器人),我可能会在简历中寻找这些关键字:
出纳员,交易,存款,取款,贷款,抵押,客户 服务,时间管理
你会如何解决这个问题?
答案 0 :(得分:1)
如果您可以访问大量广告,请按作业标题对其进行分组,然后在每个组上运行主题建模算法,例如Latent Dirichlet Allocation(LDA)。这将生成关键字。
有关详细信息,请参阅重新链接谁完全按照您的要求执行操作。它们提供了这里的过程概述: The Science Behind Relink - Organizing Job Postings
以下是一篇可能有用的文章:Modeling Career Path Trajectories。
有关LDA的技术论文,请参阅Latent Dirichlet Allocation。
有关使用gensim库的示例Python代码的文章,请参阅Experiments on the English Wikipedia。这是一篇有趣的文章,因为它处理了一个巨大的语料库,整个维基百科数据库的转储,并讨论了在计算机集群上使用分布式LDA改善执行时间的方法。示例代码还显示了如何应用潜在语义分析并将结果与LDA进行比较。
Jordan Barber的以下文章和示例代码Latent Dirichlet Allocation (LDA) with Python使用NLTK为LDA创建语料库和gensim。此代码更适用于除维基百科代码之外的其他应用程序。