我有一个NLP问题,我计划在WEKA中使用SVM进行分类。 我正在尝试对单词进行分类 - POS标签集有24个标签,基本短语块(BPC)标签集有15个标签。
但我有“功能集”,我希望每个单词都按其每个功能进行分类。
第一个特征集是{POS},因此标称属性POS的标称值为24。 第二个是{POS + BPC},因此POS + BPC标称属性的标称值为24 * 15 = 375。
因此,例如,一个单词可能会像这样输出,每个名义属性都被分类:
word, POS=tag1, POS+BPC=tag234
我只是想知道这是否可行?对于名义属性,我可以拥有的最大(类)标称值是多少?因为我可能会使用更多标签集和更多组合。我需要使用LibSVM包吗?使用SVM进行多类问题是否有意义?
我的训练数据集是约。 288K字,我的测试数据集大约是。 35k字。
答案 0 :(得分:0)
我认识一个拥有300万个功能并使用weka构建分类器的人。但是他必须将提供给weka的内存从1 GB增加到3 GB。与他的设置相比,您有2个功能但3位数值范围。我相信除了内存问题之外,应该没有任何问题。 Weka是一个大型采矿工作台。为什么不运行一些样本作为理智测试并给我们提醒?