hadoop - hadoop RecordReader如何识别记录

hadoop RecordReader如何识别记录

时间：2015-08-07 11:31:58

标签： hadoop mapreduce recordreader

处理文本文件时hadoop如何识别记录？它是基于换行符还是句号？

如果我有一个5000字的文本文件列表，全部在单行上，以空格分隔;没有新行字符，逗号或句号。 RecordReader将如何表现？

e.g。 abc pqr xyz lmn qwe rew poio kjkh ascd lkyg ......

1 个答案:

答案 0 :(得分：1)

您可以使用'\n' (LF) , '\r' (CR), or '\r\n' (CR+LF)在配置中设置分隔符。

如果没有提供，它将根据以下之一回退分割行：if( len(sys.argv) < 2 ): print "Please provide the SDK version!" print "Usage: python parse.py <sdk_version>" sys.exit(2) sdk_version = sys.argv[1] timestamp = int( time.time() ) created_on = datetime.datetime.fromtimestamp(timestamp).strftime( '%a %b %d %H:%M:%S %Z %Y' )。因此，您的示例行将被读作单个记录。

您可以阅读LineReader，TextInputFormat和LineRecordReader的代码了解详情。

在Hadoop中使用RecordReader
Hadoop Map-Reduce。 RecordReader
Hadoop自定义RecordReader
从RecordReader / InputFormat访问作业的配置
单行记录阅读器
如何在MapReduce API中调用RecordReader初始化？
Hadoop：为什么在RecordReader实现中使用FileSplit
hadoop RecordReader如何识别记录
了解hadoop中的记录阅读器
RecordReader如何将数据发送到Hadoop中的映射器

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？