我有一个包含2列的Excel工作表:
每行只有一个单词,它直接链接到一种语言
如何将这些单词和语言格式化为机器学习可接受的数据?
我使用scikit-learn和思考词袋,但在我看来,每个词的索引都不会传达每个词的特征。
答案 0 :(得分:2)
从您的问题来看,我认为您正在询问如何从用于训练分类器以确定单词语言的单词中提取特征。我认为单词的长度和单词中的字符双字母组合都是很好的功能。看一下this post来提取角色双字母。另外,也许适合使用NLTK分类器。例如,
from nltk.classify import NaiveBayesClassifier
nb = NaiveBayesClassifier.train(train_set)
其中train_set
应该是[(features, label)]
形式的元组列表,其中features
是dict
形式的{feature_name: feature_value}
。