nltk:使用自定义功能集的文本分类

时间:2013-09-30 06:47:27

标签: python text python-3.x classification nltk

我有一个如下所示的数据集:

featureDict = {identifier1: [[first 3-gram], [second 3-gram], ... [last 3-gram]],
               ...
               identifierN: [[first 3-gram], [second 3-gram], ... [last 3-gram]]}

另外,我有同一套文件的标签词典:

labelDict = {identifier1: label1,
             ...
             identifierN: labelN}

我想找出最合适的nltk容器,我可以在其中将这些信息存储在一个地方,并无缝地应用nltk分类器。

此外,在我对此数据集使用任何分类器之前,我还想在此功能空间上使用tf-idf过滤器。

参考文献和文​​档将会有所帮助。

1 个答案:

答案 0 :(得分:1)

你只需要一个简单的词典。请查看NLTK classify interface using trained classifier中的代码段。

这方面的参考文档仍然是nltk书:http://nltk.org/book/ch06.html和API规范:http://nltk.org/api/nltk.classify.html

以下是一些可能对您有帮助的网页:http://snipperize.todayclose.com/snippet/py/Use-NLTK-Toolkit-to-Classify-Documents--5671027/http://streamhacker.com/tag/feature-extraction/http://web2dot5.wordpress.com/2012/03/21/text-classification-in-python/

另外,请记住,nltk在其提供的分类器算法方面受到限制。对于更高级的探索,你最好使用scikit-learn。