不使用套接字直接将Twitter流数据直接发送到Spark:Pyspark

时间:2018-12-16 16:20:10

标签: apache-spark pyspark spark-structured-streaming

我正在尝试直接将twitter数据(json格式)发送到Spark结构化流。我没有找到任何相关的解决方案。我尝试使用下面的代码,但数据出现错误。

class TweetsListener( StreamListener):

    def on_data(self, data):
        try:
            sss = Streaming(data)
            sss.main()

            return True
        except BaseException as e:
            print("Error on_data: %s" % str(e))
        return True

    def on_error(self, status):
        print(status)
        return True

上面的代码是使用tweepy从Twitter获取数据 下面是Spark结构化的流式代码。

class Streaming():

    def __init__(self,data):
        self.data = data


    def main(self):

        lines = spark.readStream.format("json").load(self.data)

0 个答案:

没有答案