我将数据存储在blob中,并且编写了python脚本来进行一些计算并创建另一个csv。如何在Azure数据工厂中执行此操作?
答案 0 :(得分:5)
强大。您可以根据需要使用Azure Data Factory V2 custom activity。您可以使用“自定义活动”直接执行命令来调用python脚本。
请在github上参考此sample。
希望它对您有帮助。
答案 1 :(得分:1)
另一个选择是使用DatabricksSparkPython活动。如果您想进行横向扩展,这很有道理,但可能需要对PySpark支持进行一些代码修改。原因的前提是Azure Databricks工作区。您必须将脚本上传到DBFS并可以通过Azure Data Factory触发它。以下示例触发脚本pi.py:
+-----------+----------+--------------------------+
| Room Type | Quantity | Sub quantity from Double |
+-----------+----------+--------------------------+
| Double | 10 | X |
+-----------+----------+--------------------------+
| Single | 5 | 5 |
+-----------+----------+--------------------------+
| Triple | 3 | 10 |
+-----------+----------+--------------------------+
有关更多详细信息,请参见Documentation。