Question

我正在开发一个应用程序，我将在Snappydata中存储复杂的XML以供将来分析。

为了获得更好的分析性能和更低的内存消耗，您推荐什么？存储在xml，json或对象中？

以前，感谢您的关注。

Answer 1

从XML源获取DataFrame并保存到SnappyData中的Row或Column表中。

如果SQL是您的首选，那么这样的话......（请参阅DF API的文档）

snappy> CREATE external TABLE myXMLTable USING com.databricks.spark.xml
   OPTIONS (path "pathToYourXML.xml", rowTag "Refer to docs link below");

snappy> create table myInMemoryTable using column as (select * from myXMLTable);

https://github.com/databricks/spark-xml

更好的性能和更低的内存使用率

1 个答案: