如何从现有的csv在数据流管道中使用新的列名创建新的csv并将其存储到Google云存储中?

时间:2019-08-28 10:12:48

标签: python-2.7 csv dataflow read-write cloud-storage

我正在读取数据流管道中的一个现有csv文件,该文件已存储到云存储中。我想使用该现有csv的某些列,并使用新的列名将其存储到新的csv中,最后将其存储到云存储中。

一些管道代码:

with beam.Pipeline(options=options) as p:
        rw = (p | beam.io.ReadFromText(file_pattern=myfile.csv) | "perform operations on csv file"

现有的csv列:

PUID,唯一编号,单位名称,插入日期时间,接触点,接触点类型,接触点系统,LAStTouchpointDate,LAStTouchpointDetail,PersonType

在我的新csv中,我只需要某些具有来自现有列的新列名称的列。例如,UniqueNo,MainUnitName,firstInsertDatetime,firstTouchpoint,firtTouchpointType,latestTouchpointSystem,currentPersonType

0 个答案:

没有答案