我有一个逗号分隔文件,我想将其加载到内存中并将其作为数据库进行查询,我遇到了很多概念/名称,但我不确定哪个是正确的...如嵌入式数据库,内存数据库(Apache点燃等等),我该如何实现呢?
答案 0 :(得分:1)
我建议使用Apache Spark,您可以加载文件,然后使用spark-sql查询它,如下所示:
val df = spark.read.format("csv").option("header", "true").load("csvfile.csv")
// Select only the "user_id" column
df.select("user_id").show()
有关详细信息,请参阅link。
答案 1 :(得分:0)
如果您使用的是Apache Spark 1.6版本,那么您的代码将是
HiveContext hqlContext = new HiveContext(sparkContext);
DataFrame df = hqlContext.read().format("com.databricks.spark.csv").option("inferSchema", "true")
.option("header", "true").load(csvpath);
df.registerTempTable("Table name");
然后你可以从表中查询