我有一个像这样的短语:
Apple iPhone 5 White 16GB
我希望以这种方式标记
B M C S
,其中 B =品牌(Apple) M =型号(iPhone 5) C =颜色(白色) S =尺寸(尺寸)
分类器必须学习序列模式......我认为我将使用SVM或CRF。
我的问题是标记这样一个词组的最佳方法是什么?我将使用NLTK库进行python。
您对{Apple}\B {iPhone 5}\M....
的看法?什么是最好的方式?
还有一种方法可以使用种子词典(例如品牌)让NLTK为我自动标记短语列表吗?