应用错误收集

免责声明：我只能说说Cassandra，而不是说HDFS。

基本上，在Cassandra中，插入和更新之间没有区别-即使具有相应主键的记录不存在，您也可以发出UPDATE命令，或者您可以为该行执行INSERT已经存在-在两种情况下，数据都将设置为给定值。

关于刷新来自Cassandra的数据-在这种情况下，Spark Cassandra Connector提供2 functions：joinWithCassandra和leftJoinWithCassandra-它们都只能在RDD上使用。第一个函数采用RDD并返回一个新的Pair RDD，它由左侧的原始数据和右侧的Cassandra数据组成-如果没有行对应原始数据，则不会将其包含在结果中。第二个函数是相似的，但是即使Cassandra中没有行，RDD中也会保留原始数据-在这种情况下，右侧将为空。这两个函数通常用于执行有效的数据查找，例如，使用附加信息来丰富来自流的数据。

在DSE Analytics中，还支持针对Cassandra的DataFrame联接，即所谓的“ DSE Direct Join”-它比Spark联接保存来自Cassandra的所有数据的数据帧有效得多，因为它将仅提取必要的数据从数据库记录，而不读取所有数据。

如何刷新非流数据帧的内容？

1 个答案: