此JVM中只能运行一个SparkContext - [SPARK]

时间:2017-05-10 10:38:15

标签: java apache-spark twitter stream jvm

我正在尝试运行以下代码来获取Twitter信息:

import org.apache.spark._
import org.apache.spark.streaming._
import org.apache.spark.streaming.twitter._
import org.apache.spark.streaming.StreamingContext._
import twitter4j.auth.Authorization
import twitter4j.Status
import twitter4j.auth.AuthorizationFactory
import twitter4j.conf.ConfigurationBuilder
import org.apache.spark.streaming.api.java.JavaStreamingContext

import org.apache.spark.rdd.RDD
import org.apache.spark.SparkContext
import org.apache.spark.mllib.feature.HashingTF
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.SparkConf
import org.apache.spark.api.java.JavaSparkContext
import org.apache.spark.api.java.function.Function
import org.apache.spark.streaming.Duration
import org.apache.spark.streaming.api.java.JavaDStream
import org.apache.spark.streaming.api.java.JavaReceiverInputDStream

val consumerKey = "xxx"
val consumerSecret = "xxx"
val accessToken = "xxx"
val accessTokenSecret = "xxx"
val url = "https://stream.twitter.com/1.1/statuses/filter.json"

val sparkConf = new SparkConf().setAppName("Twitter Streaming")
val sc = new SparkContext(sparkConf)

val documents: RDD[Seq[String]] = sc.textFile("").map(_.split(" ").toSeq)


// Twitter Streaming
val ssc = new JavaStreamingContext(sc,Seconds(2))

val conf = new ConfigurationBuilder()
conf.setOAuthAccessToken(accessToken)
conf.setOAuthAccessTokenSecret(accessTokenSecret)
conf.setOAuthConsumerKey(consumerKey)
conf.setOAuthConsumerSecret(consumerSecret)
conf.setStreamBaseURL(url)
conf.setSiteStreamBaseURL(url)

val filter = Array("Twitter", "Hadoop", "Big Data")

val auth = AuthorizationFactory.getInstance(conf.build())
val tweets : JavaReceiverInputDStream[twitter4j.Status] = TwitterUtils.createStream(ssc, auth, filter)

val statuses = tweets.dstream.map(status => status.getText)
statuses.print()
ssc.start()

但是当它到达此命令时:val sc = new SparkContext(sparkConf),会出现以下错误:

  

17/05/09 09:08:35 WARN SparkContext:多个运行SparkContexts   在同一个JVM中检测到! org.apache.spark.SparkException:只有一个   SparkContext可能在此JVM中运行(请参阅SPARK-2243)。无视   此错误,请设置spark.driver.allowMultipleContexts = true。

我尝试将以下参数添加到sparkConf值,但仍会出现错误:

val sparkConf = new SparkConf().setAppName("Twitter Streaming").setMaster("local[4]").set("spark.driver.allowMultipleContexts", "true")

如果我忽略错误并继续运行命令,我会收到另一个错误:

  

17/05/09 09:15:44 WARN ReceiverSupervisorImpl:重启接收器   延迟2000毫秒:接收推文401时出错:认证   凭证(https://dev.twitter.com/pages/auth)丢失或   不正确。确保您已设置有效的使用者密钥/密钥,访问权限   令牌/秘密,系统时钟同步。 \ n \ n \ n错误401未经授权   HTTP错误:401

访问问题   '/1.1/statuses/filter.json'。原因:未授权    

赞赏任何形式的贡献。问候,祝你有个美好的一天。

1 个答案:

答案 0 :(得分:4)

Spark-shell已经为你准备了一个spark-session或spark-context - 所以你不必/不能初始化一个新的。通常,您将有一条线告诉您,在您可以使用哪个变量的情况下,spark-shell启动过程的结束。 allowMultipleContexts仅用于测试Spark的某些功能,在大多数情况下不应使用。