如何在Spark中比较两个rdds?

时间:2017-03-13 17:31:36

标签: python csv apache-spark count rdd

我已将2个csv文件加载到两个spark RDD中,一个包含国家/地区代码,另一个包含推文数据。我正在尝试找到以下内容:

  1. 推文中提到了多少个不同的国家?
  2. 计算提及任何国家/地区的总次数。
  3. 代码:

    undefined reference to pow/sqrt...
    

    我试图找到CountryDF中每个国家/地区在推文csv中出现的时间(只有包含推文文字的列)。

    country_DF看起来像这样:

    country_lines = sc.textFile('country-data.csv')
    words = country_lines.flatMap( lambda country_lines: country_lines.split(" )")
    country_tuples = words.map(lambda word : (word, 1))
    countryDF = sqlContext.createDataFrame(country_tuples, ["country" , "code"])
    
    tweets = sc.textFile("tweet_data.csv")
    

    如何使用python计算推文pyspark rdd中每个国家/地区的发生情况?

1 个答案:

答案 0 :(得分:0)

您可以将tweetDF分组以获取tweet.csv中每个国家/地区的计数,然后加入countryDF以获取计数。

df =  tweetDF.groupby("CountryName").count().join(countryDF,["CountryName"])