watson特殊字符,重复帖子和URL处理

时间:2017-03-29 21:48:01

标签: ibm-cloud ibm-watson personality-insights

在使用沃森个性洞察API时,我已经注意到了一些奇怪的趋势,包括许多在维度上的平均值得分(例如,与许多人在.27之间的友好程度),这让我感觉很好。东西。

经过审核,我注意到一个语言错位问题(即如果它认为它是英语,你会得到奇怪的结果,如果它是西班牙语),这引导我问,但找不到答案:

沃森如何处理: 1)消息中的网址(例如,许多Twitter帖子都有网址) 2)重复发帖(很多频道重复发帖多次) 3)特殊字符(很多帖子都有大量随机特殊字符)

我的目标是确定我需要做多少预处理才能使沃森最有效。

1 个答案:

答案 0 :(得分:3)

你是对的,如果语言不对齐,那么你会得到不正确的结果。

Pi API首先从内容语言标题确定语言。如果缺少那么,如果内容类型是json,那么它会查看json内容中的语言,选择出现次数最多的语言,最后,如果缺少它,它将默认为默认语言,即英语。

简而言之,建议(在将来的更新中将需要)是始终发送内容语言标题。

其次,关于内容的问题: - URL:服务将尝试删除这些。我不能保证它会删除所有可能的选项,因为url规范有一些非常深奥的选项,但我们将删除常见格式。 - 重复帖子:如果你发送两次相同的帖子,那么它将被计算两次。我们在发送到服务的文本中不进行重复数据删除。 - 特殊字符;我假设你在这里指的是表情符号。这些都包含在我们的处理中,因为基础模型也对包含它们的数据进行了训练,因此它们是服务使用的众多信号之一。