使用api分析一个Twitter流我几乎每个人都获得了非常相似的开放性结果。如何训练语料库以生成不同的输出
答案 0 :(得分:1)
不幸的是,你做不到。此外,我担心Twitter不是这种分析的最佳来源,因为每条推文只有一小段文字。 Watson Personality Insights可以更好地处理大型文本样本,而且很可能,twitter语句太短,无法为此类分析提供足够的信息(即使您在同一文本示例中连接了几条推文)。
但是,如果您为其他维度获得了有意义的结果,我建议您做的是忽略开放性信息并尝试使用其他算法(您自己的?)计算它,甚至检查是否只是删除这个维度不能为你提供足够好的结果。
这里有一些不错的提示 - https://www.ibm.com/smarterplanet/us/en/ibmwatson/developercloud/doc/personality-insights/science.shtml以及一些可以帮助您理解算法内部结构的文章参考。
答案 1 :(得分:0)
您无法在当前版本中训练Watson Personality Insights。但也许有其他选择。
根据您的消息,我不清楚您是否收到过类似的推文或整个Twitter流的结果。在第一种情况下,正如Leo在不同的答案中指出的那样,请注意,您应该提供足够的信息,以便任何分析都有意义(这是3,000多个单词,而不仅仅是推文)。在第二种情况下,如果您的分数与如此多的文本(每个用户有多少推文?)相似,我会感到有点惊讶,但这可能仍会发生,具体取决于域名。
如果您正在分析各个推文,您也可能会受益于用户Tone Analyzer(截至今天的测试版)。它的社交语气"与Personality Insights基本相同,即使是小文本,也会给出一些原始分数。 (顺便说一下,你会采取其他措施,如情绪和写作风格)。
在任何情况下(小型或大型输入),我们都鼓励用户查看他们自己的数据语料库中的原始分数。例如,假设您正在分析一组IT支持调用(我正在进行此操作),您可能会发现一些特征往往都是相同的,因为术语和写作风格在所有特征中都相似。但是,在您的域中可能存在您可能想要关注的小差异,即。每个特质仍有90%的百分位数,最低的10%......所以你可能想对Personality Insights raw_score
(api reference)或score
进行一些数据分析在音调分析器(api reference)中得出自己的结论。