如何获取spark数据帧中记录的输入文件名?

时间:2016-10-11 04:58:13

标签: spark-dataframe

我通过从s3加载制表符分隔文件在spark中创建数据帧。我需要获取数据帧中每条记录的输入文件名信息,以便进一步处理。我试过了

dataframe.select(inputFileName())

但是我为input_file_name获取了null值。有人请帮我解决这个问题。

1 个答案:

答案 0 :(得分:4)

您可以使用 var byteHash:ByteArray = new ByteArray(); byteHash.writeUTFBytes(MD5.hashBytes(fileBA)); var byteHashWithLength:ByteArray = new ByteArray(); byteHashWithLength.writeUTF(MD5.hashBytes(fileBA)); trace("Bytehash with length = " + Base64.encode(byteHashWithLength)); //ACAyMTMzYTdmYjczYTEzZDQ3ZDkzMTEyY2I1OWQyYTBmMg== trace("Plain = " + Base64.encode(byteHash)); //OTNiODg1YWRmZTBkYTA4OWNkZjYzNDkwNGZkNTlmNzE= trace("Storage md5 = " + storageMetaData.md5Hash); //UsoNl5sL1+aLiAhTOTBXyQ== withColumn在数据框上创建新列:

input_file_name()