如何找到数据之间的相关性和关系

时间:2016-09-14 21:15:19

标签: statistics frequency correlation pearson-correlation

我正在使用某些API(Live Streaming API)收集有关当前正在发生的特定事件的数据(文本)。我收到的数据基于我传递给API的默认关键字列表。 API还会收集除我的默认关键字之外的文本中出现的关键字,然后将它们添加到我的默认列表中,以便API也可以使用这些关键字搜索数据。这就是问题发生的地方,因为其中一些新添加的关键字与事件无关。我不想仅限于我的默认列表中的数据搜索,因为我无法涵盖文本中使用的所有关键字。

到目前为止,我的解决方案是尝试为每1000个接收到的数据执行点 - 双相关系数,但我不确定这是否是正确的方法以及如何执行此操作。

如果有人能就如何处理这个问题给我一个建议或任何解决方案,我真的很感激?

1 个答案:

答案 0 :(得分:2)

您可以使用术语共现来处理关键字集合,应该提供与默认列表更好的相关性。 This是一个示例,但您可以显着改进算法。