哪个应该是朴素贝叶斯分类器被忽略的单词列表?

时间:2012-03-20 17:04:51

标签: php ignore bayesian classification

我正在使用Naive贝叶斯分类器而不是PHP(http://www.xhtml.net/php/PHPNaiveBayesianFilter)

在培训系统时,可以忽略一系列单词。这些单词不会保存到数据库中,因此不会用于分类。 我想尽可能地改进系统,所以我想知道是否有任何规则或典型单词列表可以忽略这种系统。

我目前忽略了诸如“to”,“and”,“the”,“for”,“since”,“which”,“what”,“who”......以及一些典型的动词如“ “是”,“是”,“是”,“曾经”......等等。

有什么建议吗? 感谢。

2 个答案:

答案 0 :(得分:2)

你会处理很多单词......主要是形容词和连词,也许是动词....

这是一个非常长的列表,你需要保存为txt或导入到你的数据库.....我建议你只是谷歌和直接下载

这里有一些链接

http://www.momswhothink.com/reading/list-of-verbs.html

http://grammar.yourdictionary.com/parts-of-speech/conjunctions/conjunctions.html

http://www.smart-words.org/transition-words.html

http://www.momswhothink.com/reading/list-of-adjectives.html

你的系统运行得越多越好

由于 :)

答案 1 :(得分:1)

不确定您拥有多少数据,但是如果您可以使用python的包nltk,则可以获得预先编译的“停止”单词列表,这些单词通常在运行分类之前被删除。你也可以使用nltk)所有通常有助于朴素贝叶斯的单词来词干/ lemmatize(再次使用nltk)。此外,{{1}}可以合理地识别词性,因此您也可以进行更高级的过滤(例如,仅保留名词,专有名词,动词,副词和形容词)