应用错误收集

Spark - 如何使用DataFrame中的数据更新DBTable

时间：2015-07-28 19:47:27

标签： apache-spark apache-spark-sql

场景：我从本地硬盘读取文件，其中包含有关已发布文档的详细信息。这些记录代表了一些新发布的文档和一些已发布文档的更新信息。假设pub_id是关键，并且不会改变。我将此文件数据读取到数据框，并希望将数据附加到publishers数据库表。必须附加新记录，并且必须更新现有记录。

我如何在Spark中执行此操作？我可以不读取publishers表的全部内容吗？

0 个答案:

没有答案