Question

我可以在excel文件中写入RDD数据以及apache-spark中的映射吗？这是正确的方法吗？这不是一个写作将是一个本地函数，不能通过集群传递？

下面给出了python代码（它只是一个澄清我的问题的例子，我知道实际上可能不需要这个实现）：

import xlsxwriter
import sys
import math
from pyspark import SparkContext

# get the spark context in sc.

workbook = xlsxwriter.Workbook('output_excel.xlsx')
worksheet = workbook.add_worksheet()

data = sc.textFile("xyz.txt")
# xyz.txt is a file whose each line contains string delimited by <SPACE>

row=0

def mapperFunc(x):                  
    for i in range(0,4):      
        worksheet.write(row, i , x.split(" ")[i])
    row++                      
    return len(x.split())   

data2 = data.map(mapperFunc)

workbook.close()

有两个问题：

在'mapperFunc'中使用行是否正确？它会每次递增一行吗？
使用workheet.write（）在mapper函数中写入excel文件是否正确？

此外，如果＃2是正确的，那么请说明我认为工作表是在本地机器中创建的疑问，那么它是如何工作的？

由于

Answer 1

hadoopoffice库使您可以使用Spark 1.x通过集成ExcelOutputFormat（使用PairRdd.saveAsNewAPIHadoopFile）或Spark 2.x数据源api来编写Excel文件。使用此库，您可以将文件存储到HDFS或本地或S3或Azure ...

在这里找一些例子： https://github.com/zuinnote/hadoopoffice

沿着apache-spark中的映射在excel文件中编写RDD数据

1 个答案: