R 中的特征编码和散列

时间:2021-04-27 21:43:42

标签: r hash count one-hot-encoding

我有一个带有文本特征的数据框。每个观察都存储为一个字符串向量。例如,

featureX
c("aa","bb","cc")
c("abc","dd")
c("asa","bcb","ccsac","vd","vdsvs")
c("dd","ee")
...

我想在 R 中执行以下任务:

  1. 计算 featureX 中每个字符串的频率,例如dd 的出现次数为 2。
  2. 执行一种热编码
  3. 执行特征散列。

实际数据集很大,大约有 100000 个观测值。非常感谢任何参考。

0 个答案:

没有答案