这是一个小项目,我想在不久的将来开始。它仍处于计划阶段,因此这篇文章更多地是关于朝着正确的方向转向
基本上,我想从用户那里获取推文,并将这些推文解析到表/数据库中,以期能够实时运行该程序。
我解决这个问题的最初计划是使用yum install postgresql96-devel
(一个Python特定的库),但是,我相信Twitter API是更好的方法(对此问题的建议将不胜感激)
仍有3个未知数:
要回答(3),我想这取决于我想对数据做些什么。我仍未决定如何使用解析后的数据,但我知道我希望将其分类,因此我的想法可能是数据库/表/ excel?
还有几个问题要回答,我希望你们引导我朝着正确的方向发展。我的编程语言知识目前仅限于C,但是由于该项目对我来说意义非凡,所以我愿意付出努力并学习必要的语言/ API。
完成该项目需要了解哪些语言/ API?从我的立场来看,似乎是Twitter API和Python。
编辑:所以我有一个基本的脚本来获取用户的tweet。它比预期的要好。但是,我想再走一步。我只想获取用户的tweet,前提是该tweet中包含#标签。所有其他推文均应忽略。如何做到最好?
这是我要学习的基本代码的片段:
Beautiful Soup
答案 0 :(得分:0)
例如您所说的,用美丽的汤S刮Twitter(或任何其他社交网络)不是一个好主意,有两个原因:
回答您的问题:
1)您可以将推文存储在任意位置:csv,mysql,sqlite,redis,neo4j ...
2)使用官方API,您将获得JSON。这是一条Tweet对象:https://developer.twitter.com/en/docs/tweets/data-dictionary/overview/tweet-object.html。使用tweepy时,例如status.text
会给您发推文的文本。
3)与#1相同。如果您实际上不知道如何处理数据,请存储完整的JSON。您稍后可以解析它们。
我建议使用tweepy / python(http://www.tweepy.org/)或twit / nodejs(https://www.npmjs.com/package/twit)。并阅读官方文档:https://developer.twitter.com/en/docs/api-reference-index