特征选择和估计文本挖掘中的文档相似度

时间:2017-05-19 20:50:22

标签: text-mining similarity feature-selection

我正在使用Java中的WEKA库进行文本挖掘项目。在预处理步骤中,我应用了StringToWordVector过滤器。在这个过滤器中,我设置了几个选项,如标记化,停止单词删除,词干和TF-IDF加权方案 我有一些问题: 1-是否有必要在每个文本挖掘项目中进行特征选择过程? 2-是否有必要估计文档的相似性,例如:使用余弦相似度? 或者这两个选项是可选的? 并且是StringToWordVector过滤器做了其中一些吗?

1 个答案:

答案 0 :(得分:0)

  1. 没有必要。没有人强迫你迈出这一步。但结果通常会通过适当的特征选择方法得到改善。

  2. 如果这是您项目的目标,那是必要的;它不是以任何方式施加的。 StringToWordVector过滤器只执行此操作,将字符串转换为wordVectors以进行进一步处理或分析。这取决于您根据数据计算的内容。如果您需要相似性度量,那么余弦距离是一个合适的度量。