我已经在DataPrep中改进了转换,现在正尝试使用gcloud CLI直接运行DataFlow作业。
我已经导出了模板和模板元数据文件,并尝试使用gcloud dataflow jobs run
运行它们,并将输入和输出位置作为参数传递。
我遇到了错误:
Template metadata regex '[ \t\n\x0B\f\r]*\{[ \t\n\x0B\f\r]*((.|\r|\n)*".*"[ \t\n\x0B\f\r]*:[ \t\n\x0B\f\r]*".*"(.|\r|\n)*){17}[ \t\n\x0B\f\r]*\}[ \t\n\x0B\f\r]*' was too large. Max size is 1000 but was 1187.
我没有在命令行中指定它,所以我知道它是从元数据文件中获取的-它是直接从DataPrep获取的,未经我编辑。
我有17个输入位置-一个包含源数据,其他所有都是查找。每个都有一个正则表达式,外加一个。
如果DataPrep提示时它正在运行,但不能通过CLI运行,我是否丢失了某些内容?
答案 0 :(得分:0)
在这种情况下,我怀疑根本原因是gcloud中的限制,而该限制在Dataflow API或Dataprep中不存在。在这种情况下,最好的办法是在公共跟踪器中打开一个新的Cloud Dataflow issue并在其中提供详细信息。