Twitter流-查找十大热门话题| PySpark

时间:2018-08-10 15:37:21

标签: python apache-spark pyspark

正在做一个项目,以在Twitter上找到十大热门话题或主题标签。我用下面的代码创建一个类:

Get-WindowsOptionalFeature : A positional parameter cannot be found that accepts argument 'IIS 6 WMI Compatibility'.
At line:1 char:1
+ Get-WindowsOptionalFeature "IIS 6 WMI Compatibility"
+ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    + CategoryInfo          : InvalidArgument: (:) [Get-WindowsOptionalFeature], ParameterBindingException
    + FullyQualifiedErrorId : PositionalParameterNotFound,Microsoft.Dism.Commands.GetWindowsOptionalFeatureCommand

下面是发送数据的代码:

class TweetsListener(StreamListener):
  def __init__(self, csocket):
      self.client_socket = csocket
  def on_data(self, data):
      try:
          msg = json.loads( data )
          print(msg['user']['screen_name'].encode('utf-8'))
          return True
      except BaseException as e:
          print("Error on_data: %s" % str(e))
      return True
  def on_error(self, status):
      print(status)
      return True

这里def sendData(c_socket): auth = OAuthHandler(consumer_key, consumer_secret) auth.set_access_token(access_token, access_secret) twitter_stream = Stream(auth, TweetsListener(c_socket)) twitter_stream.filter(track=['india'] 正在过滤标签为印度的邮件。我想从Twitter获得所有消息。简而言之,我不想应用过滤器。有没有办法做同样的事情?

任何帮助表示赞赏。  -PS:Spark流媒体和PySpark的新手

1 个答案:

答案 0 :(得分:1)

Twitter现在提供了一个示例流:https://developer.twitter.com/en/docs/tweets/sample-realtime/overview/GET_statuse_sample.html

这是一个相当新的东西,所以我不确定包装器(看起来像您正在使用Tweepy)是否已经实现了它,但是与它的接口并不难。