Question

我已将2个csv文件加载到两个spark RDD中，一个包含国家/地区代码，另一个包含推文数据。我正在尝试找到以下内容：

推文中提到了多少个不同的国家？
计算提及任何国家/地区的总次数。

代码：

undefined reference to pow/sqrt...

我试图找到CountryDF中每个国家/地区在推文csv中出现的时间（只有包含推文文字的列）。

country_DF看起来像这样：

country_lines = sc.textFile('country-data.csv')
words = country_lines.flatMap( lambda country_lines: country_lines.split(" )")
country_tuples = words.map(lambda word : (word, 1))
countryDF = sqlContext.createDataFrame(country_tuples, ["country" , "code"])

tweets = sc.textFile("tweet_data.csv")

如何使用python计算推文pyspark rdd中每个国家/地区的发生情况？

Answer 1

您可以将tweetDF分组以获取tweet.csv中每个国家/地区的计数，然后加入countryDF以获取计数。

df =  tweetDF.groupby("CountryName").count().join(countryDF,["CountryName"])

如何在Spark中比较两个rdds？

1 个答案: