我们可以在从HDFS读取数据时使用DataFrame。 我在HDFS中有一个制表符分隔数据。
我用Google搜索,但看到它可以与NoSQL数据一起使用
答案 0 :(得分:6)
DataFrame当然不仅限于NoSQL数据源。 Parquet,ORC和JSON支持本机提供1.4至1.6.1;使用spark-cvs包支持文本分隔文件。
如果您的tsv文件位于HDFS的/ demo / data中,则以下代码会将该文件读入DataFrame
--packages com.databricks:spark-csv_2.10:1.4.0
要从spark-shell运行代码,请使用以下命令:
spark.read.
option("delimiter","\t").
option("header","true").
csv("hdfs:///demo/data/tsvtest.tsv").show
在Spark 2.0中,本机支持csv,因此您应该可以执行以下操作:
build
答案 1 :(得分:1)
如果我理解正确,您基本上想要从HDFS读取数据,并希望这些数据自动转换为DataFrame。
如果是这种情况,我会向您推荐this spark csv库。看看这个,它有一个非常好的文档。