级联:如何读取或写入多记录词?

时间:2013-02-28 07:33:19

标签: cascading

如果'每个'从文件中读取GBK字符串并将GBK字符串写入文件,我该怎么办?如何定义?

Fields namesFields = new Fields("zid", "vid", "title", "number");
sourcePipe = new Each(sourcePipe, new Fields("line"), new Parse(namesFields), Fields.ALL);

2 个答案:

答案 0 :(得分:0)

2013年2月27日晚上11点24分,陈东写道:

  

如果我想读取String(格式:GBK)和Write String(格式:GBK)。   我该怎么办?

http://docs.cascading.org/cascading/2.1/javadoc/cascading/scheme/hadoop/TextLine.html

使用带有charsetName参数的构造函数。

答案 1 :(得分:0)

每个用于对输入数据执行functionfilter

如果您在"zid", "vid", "title", "number"

等列中有数据

你可以在其中一列上执行过滤。就像你可以过滤数据,如果列标题没有jdk字符串。

以便将带有jdk字符串的元组打印为输出。

为此,您必须通过实施filter接口并扩展baseoperation类来编写user defined filter