Twitter API-获取用户推文并解析为表/数据库

时间:2018-06-29 17:39:38

标签: python twitter tweepy

这是一个小项目,我想在不久的将来开始。它仍处于计划阶段,因此这篇文章更多地是关于朝着正确的方向转向

基本上,我想从用户那里获取推文,并将这些推文解析到表/数据库中,以期能够实时运行该程序。

我解决这个问题的最初计划是使用yum install postgresql96-devel (一个Python特定的库),但是,我相信Twitter API是更好的方法(对此问题的建议将不胜感激)

仍有3个未知数:

  1. 一旦获得推文,我将存储在哪里?
  2. 如何解析推文?
  3. 解析后的数据存储在哪里?

要回答(3),我想这取决于我想对数据做些什么。我仍未决定如何使用解析后的数据,但我知道我希望将其分类,因此我的想法可能是数据库/表/ excel?

还有几个问题要回答,我希望你们引导我朝着正确的方向发展。我的编程语言知识目前仅限于C,但是由于该项目对我来说意义非凡,所以我愿意付出努力并学习必要的语言/ API。

完成该项目需要了解哪些语言/ API?从我的立场来看,似乎是Twitter API和Python。

编辑:所以我有一个基本的脚本来获取用户的tweet。它比预期的要好。但是,我想再走一步。我只想获取用户的tweet,前提是该tweet中包含#标签。所有其他推文均应忽略。如何做到最好?

这是我要学习的基本代码的片段:

Beautiful Soup

1 个答案:

答案 0 :(得分:0)

例如您所说的,用美丽的汤S刮Twitter(或任何其他社交网络)不是一个好主意,有两个原因:

  • 如果源页面发生更改(名称属性,div ID ...),则必须使代码保持最新状态
  • 您的脚本可以被禁止,因为不允许“抓取”。

回答您的问题:

1)您可以将推文存储在任意位置:csv,mysql,sqlite,redis,neo4j ...

2)使用官方API,您将获得JSON。这是一条Tweet对象:https://developer.twitter.com/en/docs/tweets/data-dictionary/overview/tweet-object.html。使用tweepy时,例如status.text会给您发推文的文本。

3)与#1相同。如果您实际上不知道如何处理数据,请存储完整的JSON。您稍后可以解析它们。

我建议使用tweepy / python(http://www.tweepy.org/)或twit / nodejs(https://www.npmjs.com/package/twit)。并阅读官方文档:https://developer.twitter.com/en/docs/api-reference-index