应用错误收集

Spark - 地图转换

时间：2017-05-20 09:41:42

标签： java scala apache-spark

为什么Map转换将单行作为单个元素？

如果我从外部数据集（如文本文件）创建RDD，它会将单行作为单个元素吗？

有没有办法改变它，以便它匹配模式而不是默认的单行？

或

我应该使用像过滤器这样的其他转换吗？

如果我应该使用其他转换，为什么我们不能在Map中进行转换？

请帮帮我。

示例：

我的文件包含

映射是应用的Apache Spark中的转换操作到RDD的每个元素，它将结果作为新的RDD返回。在里面 Map操作开发人员可以定义自己的自定义业务逻辑;该相同的逻辑将应用于RDD的所有元素。地图功能根据自定义代码将一个元素作为输入处理它（由开发人员指定）并一次返回一个元素。地图将长度为N的RDD转换为另一个长度为N的RDD。输入和输出RDD通常具有相同数量的记录。

然后映射过程

元素一为[A map是Apache Spark中的转换操作，应用于RDD的每个元素]

是否有任何关于map的方法，以便我可以[在Apache Spark中进行转换操作，它应用于RDD的每个元素，并将结果作为新RDD返回。]作为单行。 [点模式匹配]

1 个答案:

答案 0 :(得分：2)

回答你的第一个问题：
它不是map函数一次single line。 map函数只是transforming RDD（弹性分布式数据集）到其他RDD形式。它是逐行读取文本文件的sparkContext或sqlContext或Source库。

contexts中的每一个都使用TextInputFormat最初使用的Hadoop类。并且TextInputFormat类parses输入文件逐行使用（\r or \n）分隔符，逐行读取文本文件。

现在
如果您想要通过foolstop（.）分隔，在问题中提到自定义阅读格式来阅读行，那么您必须编写自定义inputFormat类并告知contexts使用您的custom inputFormat类。

我希望答案很明确
的被修改
Ingesting data with Spark using a custom Hadoop FileInputFormat和Custom Input Format in Hadoop以及simple image format converter和Using Custom Hadoop input format for processing binary file in Spark应该为您提供自定义inputFormat

的良好开端

相关问题

另外在火花图转换中

Apache火花在RDD上应用地图转换

序列化Lucene StandardAnalyzer，用于Apache Spark RDD映射转换

RDD转换图，Python

地图转换为何狭窄？

映射转换性能火花数据帧与RDD

Spark Map转换

Spark - 地图转换

如何在地图转换中使用Hivecontext

包含下过滤器转换，与map和flatMap的工作方式不同

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？