使用Spark中的动态列将RDD数据写入CSV - Scala

时间:2017-11-27 19:59:20

标签: scala csv hadoop apache-spark

我正在从HDFS目录中读取多个文件,并且对于每个文件,使用以下命令打印生成的数据:

<div class="framehome">
  <div class="myaccountwrapper">
    <div class="myaccountleft">
      Menu
    </div>
    <div class="myaccountright">
      <div id="windowmyaccount" class="submenu" id="boxaccount">
        Change my Handle
      </div>
      <div id="windowhandle" class="submenu" id="boxaccount">
        Change my Handle
      </div>
    </div>
  </div>
</div>

打印的数据是(对于 File1.txt ):

frequencies.foreach(x => println(x._1 + ": "+x._2))

其他文件(例如 File2.txt )的密钥可能不同:

'text': 45
'data': 100
'push': 150

所有文件中的密钥不一定相同。我希望以下列格式将所有文件数据写入.csv文件:

'data': 45
'lea': 100
'jmp': 150

有人可以帮我找到解决这个问题的方法吗?

0 个答案:

没有答案