是否有可用的工具可以从我的数据集中修剪高频和低频项?
答案 0 :(得分:0)
常用的算法是Grubbs' test。我真的不知道Java中的实现,但是如果你愿意用不同的语言进行预处理,那么R中的outliers package包含了Grubbs的测试。要消除多个异常值,您可以重复应用Grubbs的测试。
编辑:
我刚看到我错过了文本分类标记。如果你只是想让过于频繁的术语偏离你的结果,那么TF-IDF可能对你很有意思。这当然不会降低维度。
答案 1 :(得分:0)
Stop words是在自然语言处理中消除(非常)高频词的常用技术。
低频词通常很有趣。你真的想要消除它们吗?