我有一个Talend作业来创建.csv文件,现在我想使用Talend v6.5.1转换.parquet格式。我认为,只有tSystem组件可以从.csv临时登陆的本地或目录中调用python脚本。我知道我可以使用pandas或pyspark轻松地转换它,但是我不确定在Talend中tSystem可以使用相同的代码。您能提供建议或指示吗?
代码:
import pandas as pd
DF = pd.read_csv("Path")
DF1 = to_parquet(DF)
答案 0 :(得分:0)
如果文件系统上有外部脚本,则可以尝试
"python \"myscript.py\" "
以下是有关此问题的talend论坛上的链接: https://community.talend.com/t5/Design-and-Development/how-to-execute-a-python-script-file-with-an-argument-using/m-p/23975#M3722
答案 1 :(得分:0)
我可以按照以下步骤解决问题-
将熊猫作为pd导入
将pyarrow导入为pa
将numpy导入为np
导入系统
文件名= sys.argv [1]
test = pd.read_csv(r“ C:\ Users \您的桌面\ Downloads \ TestXML \” +文件名+“。csv”) test.to_parquet(r“ C:\ Users \您的桌面\ Downloads \ TestXML \” +文件名+“。parquet”)