沿着apache-spark中的映射在excel文件中编写RDD数据

时间:2014-05-29 00:30:54

标签: python excel apache-spark

我可以在excel文件中写入RDD数据以及apache-spark中的映射吗?这是正确的方法吗?这不是一个写作将是一个本地函数,不能通过集群传递?

下面给出了python代码(它只是一个澄清我的问题的例子,我知道实际上可能不需要这个实现):

import xlsxwriter
import sys
import math
from pyspark import SparkContext

# get the spark context in sc.

workbook = xlsxwriter.Workbook('output_excel.xlsx')
worksheet = workbook.add_worksheet()

data = sc.textFile("xyz.txt")
# xyz.txt is a file whose each line contains string delimited by <SPACE>

row=0

def mapperFunc(x):                  
    for i in range(0,4):      
        worksheet.write(row, i , x.split(" ")[i])
    row++                      
    return len(x.split())   

data2 = data.map(mapperFunc)

workbook.close()

有两个问题:

  1. 在'mapperFunc'中使用行是否正确?它会每次递增一行吗?
  2. 使用workheet.write()在mapper函数中写入excel文件是否正确?
  3. 此外,如果#2是正确的,那么请说明我认为工作表是在本地机器中创建的疑问,那么它是如何工作的?

    由于

1 个答案:

答案 0 :(得分:0)

hadoopoffice库使您可以使用Spark 1.x通过集成ExcelOutputFormat(使用PairRdd.saveAsNewAPIHadoopFile)或Spark 2.x数据源api来编写Excel文件。使用此库,您可以将文件存储到HDFS或本地或S3或Azure ...

在这里找一些例子: https://github.com/zuinnote/hadoopoffice