我通过从s3加载制表符分隔文件在spark中创建数据帧。我需要获取数据帧中每条记录的输入文件名信息,以便进一步处理。我试过了
dataframe.select(inputFileName())
但是我为input_file_name获取了null值。有人请帮我解决这个问题。
答案 0 :(得分:4)
您可以使用 var byteHash:ByteArray = new ByteArray();
byteHash.writeUTFBytes(MD5.hashBytes(fileBA));
var byteHashWithLength:ByteArray = new ByteArray();
byteHashWithLength.writeUTF(MD5.hashBytes(fileBA));
trace("Bytehash with length = " + Base64.encode(byteHashWithLength)); //ACAyMTMzYTdmYjczYTEzZDQ3ZDkzMTEyY2I1OWQyYTBmMg==
trace("Plain = " + Base64.encode(byteHash)); //OTNiODg1YWRmZTBkYTA4OWNkZjYzNDkwNGZkNTlmNzE=
trace("Storage md5 = " + storageMetaData.md5Hash); //UsoNl5sL1+aLiAhTOTBXyQ==
和withColumn
在数据框上创建新列:
input_file_name()