我想从多个文件中提取数据,因此我使用的文件集模式需要一个虚拟列。由于我的数据存在一些问题,我还需要静音切换,否则我无法处理我的数据。看起来,当我使用带静音开关的虚拟列时,它不会提取任何行。
@drivers =
EXTRACT name string,
age string,
origin string
FROM "/input/{origin:*}file.csv"
USING Extractors.Csv(silent:true);
请注意,我可以通过删除虚拟列从单个文件中提取数据。有没有解决这个问题的方法?
答案 0 :(得分:2)
如果您不打算引用该值,则首先不需要命名通配符(并公开虚拟列)。虽然我们建议您确保不使用此模式处理太多文件,但最好使用虚拟列作为过滤器,将文件数量限制为几千个,直到我们改进实现工作为止更多文件。
我假设至少有一个文件包含一些有两列的行?如果是这种情况,我认为你发现了一个错误。你能给我一个简单的repro(一个工作的文件,还有一个文件,它停止工作和脚本)到我的电子邮件地址,所以我可以提交它,我们可以调查它吗?
谢谢!