我们正在努力导入大量的简历,预先标记它们 关键字取决于文本块中的某些模式(每个简历平均约3500个单词)。
例如,如果文本块包含" codeigniter"或" codeignitor"或者"代码点火器"或者"代码点火器",它应该考虑原始单词" codeigniter" (在某种规则中定义)然后我们将标记该行以包含该关键字(codeigniter)。
我正在思考以下几点:
$rules = array(
"keywords" => array("codeigniter","php","mysql"),
"match_relevance" => 0.8
);
$text_analysis = $search_lib->search($rules,$text_block);
然后文本分析将返回:
print_r($text_analysis);
array(
"codeigniter" => 8,
"mysql" => 4
)
以上可能是对其完成方式的过度简化,但我正在寻找一些方法,以一种相对类似的方式实现这一目标。
解决方案无需特定于任何编程语言。 (可以是php,python等)
我知道我可以使用其他技术(如全文搜索或其他搜索引擎,如(Sphinx,Solr,Lucene等))获得类似的结果,但这个用例特别要求文本预处理,因为我们希望标记记录。
答案 0 :(得分:0)
不是名称实体识别和链接你在说什么? 有很多关于这个问题的研究和大量的技术(开源或非开源)以获得可接受的结果。
我建议: - 研究名称实体识别和链接的基础知识 - 为您的用例定义知识库(或使用可用的知识库) - 实现一个能够提取和链接文本中实体的解决方案,您可能对开源解决方案感兴趣[1] - 将其与搜索引擎集成,以便找到简历