我正在研究类似情绪分析的问题,假设文本中包含的数字将对分类产生影响,例如:
I rate this product with 5 stars --> like
this product is 10x times worse --> hate
this product is 1x times worse --> don't like
如何解释这些数字以影响结果,请注意,文本是自由的,没有使用任何标准。
答案 0 :(得分:1)
假设您要使用词袋法对句子进行编码。然后,由于存在无限多个数字,因此无法将每个数字编码为单独的索引。我要做的是为数字分配n
(n
可能等于您日期中的类数)索引,以便对数据集中的所有数字进行编码。然后,每个数字的终止位置将取决于阈值。您可以从训练数据中推断出这些阈值。例如,所有大于5
的数字到某个索引,所有大于10
的数字到另一个索引,依此类推。