应用错误收集

将文件指向hadoop集群

时间：2015-11-25 04:05:04

标签： scala apache-spark bigdata

我有一个存储在服务器中的文件。我希望在运行spark时将文件指向Hadoop集群。我所拥有的是我可以将spark上下文指向hadoop集群，但是现在它指向集群时无法在Spark中访问数据。我有本地存储的数据，所以为了让我访问数据，我必须在本地指出它。但是，这会导致很多内存错误。我希望做的是将Spark指向集群，但同时访问我本地存储的数据。请告诉我如何做到这一点。

1 个答案:

答案 0 :(得分：1)

Spark（在Hadoop上）无法读取本地存储的文件。记住spark是在多台机器上运行的分布式系统，因此无法直接读取其中一个节点（localhost除外）上的数据。

你应该把文件放在HDFS上并从那里读取火花。

要在本地访问它，您应该使用hadoop fs -get <hdfs filepath>或hadoop fs -cat <hdfs filepath>命令。

如何估算Hadoop集群？
从HDFS集群下载文件
获取hadoop集群中文件的磁盘使用情况
什么文件触发Hadoop集群
HA群集中的Hdfs文件路径
将文件指向hadoop集群
如何在hadoop集群环境中提取.gz文件？
访问Hadoop Virtualbox Cluster上的文件
Hadoop集群。数据在群集数据节点上自动复制
比Hadoop集群存储更大的文件

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？