查询内存中的文件

时间:2017-11-28 20:42:28

标签: java apache file

我有一个逗号分隔文件,我想将其加载到内存中并将其作为数据库进行查询,我遇到了很多概念/名称,但我不确定哪个是正确的...如嵌入式数据库,内存数据库(Apache点燃等等),我该如何实现呢?

2 个答案:

答案 0 :(得分:1)

我建议使用Apache Spark,您可以加载文件,然后使用spark-sql查询它,如下所示:

val df = spark.read.format("csv").option("header", "true").load("csvfile.csv")
// Select only the "user_id" column
df.select("user_id").show()

有关详细信息,请参阅link

答案 1 :(得分:0)

如果您使用的是Apache Spark 1.6版本,那么您的代码将是

HiveContext hqlContext = new HiveContext(sparkContext);

        DataFrame df = hqlContext.read().format("com.databricks.spark.csv").option("inferSchema", "true")
                .option("header", "true").load(csvpath);
        df.registerTempTable("Table name");

然后你可以从表中查询