分析twitter进行研究:从小数据转向大数据

时间:2014-09-26 09:45:19

标签: python csv twitter bigdata nltk

我们正在开展一项研究工作,作为我们大学项目的一部分,我们需要对其进行分析。

我们已经使用pandas和nltk构建了用于分类和分析的原型,从csv文件中读取注释然后进行处理。现在的问题是我们想要扩展它以便读取和分析一些大的评论文件。但问题是我们没有任何人可以指导我们(他们中的大多数来自生物学背景)使用什么技术来使用这么大的数量。

我们的问题是: -

1.。]如何存储大量评论文件(5 gb,离线数据)。到目前为止,我们只使用pandas处理了5000-10000行注释。但是我们如何存储和处理如此庞大的文件。使用哪个数据库。

2。]此外,由于我们计划使用nltk,对这些数据进行机器学习,我们的方法应该是:: csv-> pandas,nltk,机器学习 - >模型 - >的平行线。预测即可。也就是说,在这条路径中我们需要改变,我们应该用什么技术来替换它们以处理大量数据。

1 个答案:

答案 0 :(得分:0)

一般来说,有两种缩放方式:

  • 缩放向上
  • 缩放 out

向上扩展,大​​多数情况下,意味着拿走你已经拥有的东西,然后在更大的机器上运行它(更多的CPU,RAM,磁盘吞吐量)。

横向扩展通常意味着对问题进行分区,并在不同的线程/进程/计算机上处​​理部件。

扩展更容易:保留已有的代码并在大型计算机上运行(如果您没有可用的话,可能在Amazon EC2或Rackspace上运行)。

如果扩大规模还不够,则需要向外扩展。首先确定可以对问题的哪些部分进行分区。由于您正在处理Twitter评论,因此您很有可能只需将文件分区为多个文件,并培训N个独立模型。

由于您只是处理文本数据,因此使用数据库而不是纯文本文件(至少存储输入数据)并不是一个很大的优势。只需将文件拆分为多个文件,然后将每个文件分发到不同的处理单元。

根据您使用的特定机器学习技术,将独立模型合并为一个可能很容易,但可能需要专业知识。

例如,如果您正在使用K最近邻居,那么加入独立模型是微不足道的