大致多个关键字匹配的文字预处理

时间:2017-11-26 12:31:31

标签: php python nlp full-text-search text-processing

我们正在努力导入大量的简历,预先标记它们  关键字取决于文本块中的某些模式(每个简历平均约3500个单词)。

例如,如果文本块包含" codeigniter"或" codeignitor"或者"代码点火器"或者"代码点火器",它应该考虑原始单词" codeigniter" (在某种规则中定义)然后我们将标记该行以包含该关键字(codeigniter)。

我正在思考以下几点:

$rules = array(
    "keywords" => array("codeigniter","php","mysql"),
    "match_relevance" => 0.8
);

$text_analysis = $search_lib->search($rules,$text_block);

然后文本分析将返回:

print_r($text_analysis);

array(
    "codeigniter" => 8,
    "mysql" => 4
)

以上可能是对其完成方式的过度简化,但我正在寻找一些方法,以一种相对类似的方式实现这一目标。

解决方案无需特定于任何编程语言。 (可以是php,python等)

我知道我可以使用其他技术(如全文搜索或其他搜索引擎,如(Sphinx,Solr,Lucene等))获得类似的结果,但这个用例特别要求文本预处理,因为我们希望标记记录。

1 个答案:

答案 0 :(得分:0)

不是名称实体识别和链接你在说什么? 有很多关于这个问题的研究和大量的技术(开源或非开源)以获得可接受的结果。

我建议:   - 研究名称实体识别和链接的基础知识   - 为您的用例定义知识库(或使用可用的知识库)   - 实现一个能够提取和链接文本中实体的解决方案,您可能对开源解决方案感兴趣[1]   - 将其与搜索引擎集成,以便找到简历

[1] http://stanbol.apache.org