二元vs tfidf Ngram在情绪分析/分类任务中的特征比较?

时间:2013-01-26 19:19:53

标签: machine-learning nlp artificial-intelligence n-gram tf-idf

简单的问题:使用Ngrams(unigram / bigrams等)作为简单的二进制特征,或者更确切地说,在ML模型(如支持Vectory Machines)中使用它们的Tfidf分数来执行NLP任务(如情绪分析或文本分类/分类) ?

1 个答案:

答案 0 :(得分:3)

史蒂夫在评论中提到,最好的答案(以及ML风格的方式)就是尝试!

话虽这么说,我会从二进制功能开始。像SVM这样的ML模型的目标是确定这些特征的“权重”,因此如果效率很高,则不必提前设置此权重(使用TFIDF或其他)。