kea短语提取的KEA算法如何使用WEKA来查找关键短语

时间:2013-11-16 09:07:26

标签: weka

用于kea短语提取的KEA算法如何使用WEKA从给定的文本文档中查找关键短语。我已经理解了基本逻辑,即它首先清理输入,然后生成n克并删除停用词并进行干预。生成特征值。我不知道KEA接下来会做什么?它用于什么目的使用WEKA?

1 个答案:

答案 0 :(得分:0)

KEA基于使用监督学习技术的机器学习模型。基本上这意味着我们首先需要获得培训数据。该训练数据具有示例文档和由人选择的关键短语列表。您可以使用此训练数据来计算要素,然后将此要素提供给构建模型的机器学习算法。如果输入给定一组特征,模型基本上告诉您输出应该是什么。在机器学习工作中更深入的最佳资源之一是book from creators of WEKA themselves

KEA使用Naive Bayes算法计算给定特征集的输出。 WEKA有效实施Naive Bayes。但我不会说WEKA在这方面很特别。几乎所有值得使用它的机器学习工具包都可以很好地实现朴素贝叶斯,所以你可以真正使用任何工具包。但接下来会发生什么。您可以在WEKA中为Naive Bayes实现提供这些功能,并获得关键短语排名分数的输出。

see here了解KEA如何从第5页开始工作。第6页描述了您已经找到的内容,即它确实是词干和ngram。第7页和第8页介绍了它计算的功能。下一页介绍了培训和ML算法。