在情感分析期间包括文本中的数值

时间:2019-01-29 13:34:52

标签: machine-learning keras sentiment-analysis

我正在研究类似情绪分析的问题,假设文本中包含的数字将对分类产生影响,例如:

I rate this product with 5 stars --> like
this product is 10x times worse --> hate
this product is 1x times worse --> don't like

如何解释这些数字以影响结果,请注意,文本是自由的,没有使用任何标准。

1 个答案:

答案 0 :(得分:1)

假设您要使用词袋法对句子进行编码。然后,由于存在无限多个数字,因此无法将每个数字编码为单独的索引。我要做的是为数字分配nn可能等于您日期中的类数)索引,以便对数据集中的所有数字进行编码。然后,每个数字的终止位置将取决于阈值。您可以从训练数据中推断出这些阈值。例如,所有大于5的数字到某个索引,所有大于10的数字到另一个索引,依此类推。