如何提取仅本地人发布的推文?

时间:2019-01-06 05:49:28

标签: python twitter web-crawler sentiment-analysis social-media

我正在做一个关于当地人对香港运输服务态度的情感分析项目。我使用Twitter API收集了推文。但是,由于我的研究目标是香港本地人,因此应该删除例如旅行者发布的推文。有人可以给我一些关于如何从大量Twitter数据中提取本地人发布的推文的提示吗?我现在的想法是构建一个包含与旅行有关的单词的字典,并使用这些单词过滤推文。但这似乎不起作用

欢迎任何提示和见解!谢谢!

1 个答案:

答案 0 :(得分:2)

您可以通过三种主要方式来做到这一点。

  1. 语言。如果用户使用粤语(或另一种当地语言)发推文,则与俄语相比,他们成为旅行者的可能性就较小。
  2. 用户位置。如果用户的个人资料中存在某个位置,则可以查看该位置是否在香港。
  3. 用户时区。如果用户的时区与香港的时区相同,则可能是本地时间。

所有这些都是非常模糊的。