应用错误收集

使用什么范围的值来判断一个单词的情绪分数是否合理？

时间：2014-03-07 11:57:49

标签： java numerical sentiment-analysis

正在开发的程序正在输入文本并输出一个矢量（文档），其中句子和单词作为行和列，其中单词根据其情绪被赋予数值。功能词（如，是，是）将被赋予0.01的值。该程序背后有一个数据库，其中单词的数值取决于它们的极性正/负。该数据库将给出该字的先前极性，该极性可能根据其上下文极性而改变。要解决的问题是要给数据库中的单词赋予什么数值范围。

2 个答案:

答案 0 :(得分：1)

我认为考虑它的粗略方法是看到你可能拥有的最大单词（大约）以及你想要的两个数值之间的差异。例如，范围从-1到1，分辨率为0.01，最大可以是（1 - （-1））/ 0.01 = 2 / 0.01 = 200个单词。我希望你明白这一点。

因此，要获得1000个正数词和500个负数词的集合，数值分辨率为0.01，您的范围必须为 - （500 * 0.01）到（1000 * 0.01）= -5到10.

我希望我能正确理解你的问题。

提醒：当使用double / float时，请记住，对于数值计算，使用有限精度，例如，0.01将不会精确保存为0.01，因此您绝不能使用== in用于比较的代码，必须是＆gt; =或＆lt; =，您可能需要调整逻辑以实现此目的。

答案 1 :(得分：0)

我的意思是，如果您已经将基本单词设置为.01为什么不根据长度给出单词值。困难的部分是摆脱所有常用词。