下载Twitter语料库

时间:2017-11-13 10:19:44

标签: twitter analysis corpus mining

我正在研究数据挖掘系统,其中一个要求是能够在不使用API​​的情况下执行分析。有没有办法下载Twitter数据库(或至少是其中很大一部分)并在本地使用它?

2 个答案:

答案 0 :(得分:0)

API是获取Twitter数据的官方方式,它们运行得非常好,因此无法理解为什么您不想使用API​​。网页抓取是一种解决方法,但不推荐,此外你想获得它的很大一部分,所以我认为你不会满意。您也可以从Gnip购买数据。

答案 1 :(得分:0)

有一篇关于从twitter创建语料库的论文。它被称为“TWORPUS – An Easy-to-Use Tool for the Creation of Tailored Twitter Corpora”。我建议阅读它,因为它还涵盖许可问题等。他们还提供了Github上的代码。

实际上,您无法直接下载Twitter数据转储。我可以下载单个推文并将其存储在语料库中。但是,也不允许共享该数据。因此,作者构建了Tworpus客户端来创建私人推特语料库。