应用错误收集

R 中的特征编码和散列

时间：2021-04-27 21:43:42

标签： r hash count one-hot-encoding

我有一个带有文本特征的数据框。每个观察都存储为一个字符串向量。例如，

featureX
c("aa","bb","cc")
c("abc","dd")
c("asa","bcb","ccsac","vd","vdsvs")
c("dd","ee")
...

我想在 R 中执行以下任务：

计算 featureX 中每个字符串的频率，例如dd 的出现次数为 2。
执行一种热编码
执行特征散列。

实际数据集很大，大约有 100000 个观测值。非常感谢任何参考。

0 个答案:

没有答案