我可以使用Talend作业创建.csv文件,并且想使用tSystem组件将.csv转换为.parquet文件吗?

时间:2019-07-10 13:07:33

标签: talend

我有一个Talend作业来创建.csv文件,现在我想使用Talend v6.5.1转换.parquet格式。我认为,只有tSystem组件可以从.csv临时登陆的本地或目录中调用python脚本。我知道我可以使用pandas或pyspark轻松地转换它,但是我不确定在Talend中tSystem可以使用相同的代码。您能提供建议或指示吗?

代码:

   import pandas as pd
   DF = pd.read_csv("Path")
   DF1 = to_parquet(DF)

2 个答案:

答案 0 :(得分:0)

如果文件系统上有外部脚本,则可以尝试

"python \"myscript.py\" "

以下是有关此问题的talend论坛上的链接: https://community.talend.com/t5/Design-and-Development/how-to-execute-a-python-script-file-with-an-argument-using/m-p/23975#M3722

答案 1 :(得分:0)

我可以按照以下步骤解决问题-

将熊猫作为pd导入

将pyarrow导入为pa

将numpy导入为np

导入系统

文件名= sys.argv [1]

test = pd.read_csv(r“ C:\ Users \您的桌面\ Downloads \ TestXML \” +文件名+“。csv”) test.to_parquet(r“ C:\ Users \您的桌面\ Downloads \ TestXML \” +文件名+“。parquet”)