应该在什么时候进行NLP处理?

时间:2012-04-04 15:46:34

标签: database statistics nlp artificial-intelligence

在一个完美的世界里,我可以随时获得大量数据,而无需花费任何时间来索取和接收它。但是在谷歌或脸谱等真实应用程序的背景下,你需要时间来查询数据库中的大量数据,然后你会尝试处理这些数据,以便得出有意义的结论/关系。 / p>

在对sql中的大量数据进行计数和排序的上下文中,您将数据存储在汇总表中以避免处理...并且只需使用cron更新这些表。但统计分析和nlp似乎有所不同。

问题是,在数据生命周期的哪个阶段应该进行实际的统计/ nlp / etc分析?

2 个答案:

答案 0 :(得分:1)

通常这样做的方法是收集数据,拥有某种数据库(SQL或NoSQL),然后处理将其转储到hadoop网格中,如果它是大量的数据;否则做你通常做的事。然后,您可以分析这些数据并将结果反馈给您。

获取数据 - >存储它 - >转储它 - >分析它 - >使用离线分析的结果

实际数据库上的数据处理效果不佳。

答案 1 :(得分:0)

当你说NLP时,取决于你的想法。在某个地方存储几十条推文/状态更新的那一刻,您就可以开始阅读和分析它们了。在NLP发生时反复查询您唯一的生产服务器可能不是一个好主意 - 您可能希望转储所有数据并从那里开始工作。