使用Python中的NLTK标记短语以学习分类器

时间:2015-06-15 12:28:42

标签: python nlp classification nltk

我有一个像这样的短语:

Apple iPhone 5 White 16GB

我希望以这种方式标记

B M C S

,其中 B =品牌(Apple) M =型号(iPhone 5) C =颜色(白色) S =尺寸(尺寸)

分类器必须学习序列模式......我认为我将使用SVM或CRF。

我的问题是标记这样一个词组的最佳方法是什么?我将使用NLTK库进行python。

您对{Apple}\B {iPhone 5}\M....的看法?什么是最好的方式?

还有一种方法可以使用种子词典(例如品牌)让NLTK为我自动标记短语列表吗?

0 个答案:

没有答案