通过EMR笔记本电脑上的Pyspark访问三角洲

时间:2020-06-25 11:52:57

标签: python amazon-web-services amazon-emr

对于使用外部库(例如在AWS EMR笔记本上使用delta-core),我有一个疑问。当前没有任何通过pypi软件包安装增量核心库的机制。可用的选项包括。

  1. 使用--packages选项启动pyspark内核
  2. 另一种选择是通过os配置更改python脚本中的packages选项,但是我看不到它能够下载软件包,并且在import delta.tables库上仍然出现导入错误。
  3. 第三种选择是手动下载JAR,但EMR笔记本上似乎没有任何选择。

以前有人尝试过吗?

1 个答案:

答案 0 :(得分:0)

  1. 您可以在使用引导脚本创建EMR时下载jar。
  2. 您可以将罐子放在s3中,并使用--jars选项将其传递到pyspark
相关问题