具有许多属性的大量时间序列数据的解决方案

时间:2015-11-10 23:38:00

标签: nlp time-series bigdata

我正在开展新闻分析项目,我们从实时新闻流中检索事件,并对某些金融工具表达情感。目前我们只为每个工具生成一个时间序列情感流,这是从100多种类型的事件和许多新闻网站聚合而来。我们使用Postgres存储结构化数据,预先计算/聚合情绪并在Influx上存储以支持实时流在前端。

我们正在考虑扩展功能,以便用户能够选择范围内的事件类型和新闻来源,因此每个用户都可以拥有不同的情绪流。并且用户应该能够仅使用特定事件类型或来源进一步打破情绪。理想的解决方案应该能够让用户定义范围并即时接收汇总的情绪。

我很难想象聚合可以在没有任何预先计算的情况下完全动态完成。另一方面,最原子时间序列是每个新闻源的每个事件类型。但是这样我们需要维护(100个事件类型* 100个新闻源* 1000个乐器)1000万个系列?进一步增加新闻来源将使该系统无法维持。

有人可以分享一些想法,架构或技术解决方案可能会支持我们的要求吗?

1 个答案:

答案 0 :(得分:0)

如果所有事件类型和源共享相同的工具,则可以创建一个流并生成事件类型并在流(系列)中提供属性。然后,您可以根据需要按属性过滤流。

但是,如果不同的来源具有不同的工具和事件类型,那么您可以拥有仪器的流(时间序列),并将源和事件类型作为属性添加到每个流,以便您可以按属性进行过滤。

通常,尝试减少流的数量并将该信息编码为属性。