使用scalding或scala删除文件预告片记录

时间:2015-03-04 12:35:59

标签: scala bigdata scalding

我正在尝试使用Pipe(cascading.pipe.Pipe)来读取文件。 因此,文件中的每条记录都遵循除拖车记录之外的模式每当管道读取代码执行时,它都会抛出异常,因为预告片记录与模式不匹配。 管道线看​​起来像:

fieldlst:列表(col1,col2,col3)

val filteredInput = Csv(inputFilePath,separator =" |",fields = fieldlst,skipHeader = true)     .read

任何人都可以告诉我一个解决方案。通过读写文件删除预告片记录似乎是一个简单的解决方案,但为此,我必须读写整个文件和文件可能非常庞大。

1 个答案:

答案 0 :(得分:0)

您可以使用TextLine,然后使用' |'拆分记录,而不是使用Csv管道。