我一直想知道编码表单示例的最佳策略是什么
[“word-a”,“word-b”,...,“word-n”]
对于像SVM这样只采用浮点数的分类算法。
显然,我的字典大小的数组,我将每个位置映射到一个单词是太天真无法工作。
我一直在看字符串内核,但我不确定这是我需要的。
那么如何进行?
答案 0 :(得分:0)
好的,我所寻找的是“One-hot”或“One-of-K”方法。
http://code-factor.blogspot.it/2012/10/one-hotone-of-k-data-encoder-for.html