标签: apache-spark apache-spark-sql
场景:我从本地硬盘读取文件,其中包含有关已发布文档的详细信息。这些记录代表了一些新发布的文档和一些已发布文档的更新信息。假设pub_id是关键,并且不会改变。我将此文件数据读取到数据框,并希望将数据附加到publishers数据库表。必须附加新记录,并且必须更新现有记录。
我如何在Spark中执行此操作?我可以不读取publishers表的全部内容吗?