Question

我通过从s3加载制表符分隔文件在spark中创建数据帧。我需要获取数据帧中每条记录的输入文件名信息，以便进一步处理。我试过了

dataframe.select(inputFileName())

但是我为input_file_name获取了null值。有人请帮我解决这个问题。

Answer 1

您可以使用var byteHash:ByteArray = new ByteArray(); byteHash.writeUTFBytes(MD5.hashBytes(fileBA)); var byteHashWithLength:ByteArray = new ByteArray(); byteHashWithLength.writeUTF(MD5.hashBytes(fileBA)); trace("Bytehash with length = " + Base64.encode(byteHashWithLength)); //ACAyMTMzYTdmYjczYTEzZDQ3ZDkzMTEyY2I1OWQyYTBmMg== trace("Plain = " + Base64.encode(byteHash)); //OTNiODg1YWRmZTBkYTA4OWNkZjYzNDkwNGZkNTlmNzE= trace("Storage md5 = " + storageMetaData.md5Hash); //UsoNl5sL1+aLiAhTOTBXyQ==和withColumn在数据框上创建新列：

input_file_name()

如何获取spark数据帧中记录的输入文件名？

1 个答案: