通过匹配字典单词来提取句子

时间:2017-04-07 19:52:08

标签: perl

我有很多字符串,但包含感兴趣的单词或短语。例如: “春天到了,我喜欢樱花,我喜欢点击相同的照片”

包含感兴趣的单词/短语“樱花”,“爱情”和“点击”。

我的工作是找出带有感兴趣的单词/短语的句子。如果可能的话,对每个字符串进行评分,使得由两个或多个单词/短语组成的字符串比具有较低计数的字符串获得更好的分数。

这是一个递归下降解析的工作,还是有更快的方法来做这个?对于这项任务,我愿意以一点速度进行权衡以获得准确性。

我的词典将包含大约250,000个单词。我可以以任何我想要的方式将它们存储在磁盘上。是否有任何一种格式(可能是一些db文件格式)可以很好地适应我需要进行的那种查找?

是否有适合我的CPAN模块?或者有一个简单的解决方案。

由于

1 个答案:

答案 0 :(得分:2)

在cpan上搜索自然语言处理(NLP);例如Lingua::EN::*

还可以在线/期刊中搜索“词袋”,以便进行该领域的介绍。