我已将2个csv文件加载到两个spark RDD中,一个包含国家/地区代码,另一个包含推文数据。我正在尝试找到以下内容:
代码:
undefined reference to pow/sqrt...
我试图找到CountryDF中每个国家/地区在推文csv中出现的时间(只有包含推文文字的列)。
country_DF看起来像这样:
country_lines = sc.textFile('country-data.csv')
words = country_lines.flatMap( lambda country_lines: country_lines.split(" )")
country_tuples = words.map(lambda word : (word, 1))
countryDF = sqlContext.createDataFrame(country_tuples, ["country" , "code"])
tweets = sc.textFile("tweet_data.csv")
如何使用python计算推文pyspark rdd中每个国家/地区的发生情况?
答案 0 :(得分:0)
您可以将tweetDF分组以获取tweet.csv中每个国家/地区的计数,然后加入countryDF以获取计数。
df = tweetDF.groupby("CountryName").count().join(countryDF,["CountryName"])