我正在读取数据流管道中的一个现有csv文件,该文件已存储到云存储中。我想使用该现有csv的某些列,并使用新的列名将其存储到新的csv中,最后将其存储到云存储中。
一些管道代码:
with beam.Pipeline(options=options) as p:
rw = (p | beam.io.ReadFromText(file_pattern=myfile.csv) | "perform operations on csv file"
现有的csv列:
PUID,唯一编号,单位名称,插入日期时间,接触点,接触点类型,接触点系统,LAStTouchpointDate,LAStTouchpointDetail,PersonType
在我的新csv中,我只需要某些具有来自现有列的新列名称的列。例如,UniqueNo,MainUnitName,firstInsertDatetime,firstTouchpoint,firtTouchpointType,latestTouchpointSystem,currentPersonType