Hadoop(Hive)中是否有类似存储过程/作业的内容

时间:2018-10-26 07:11:11

标签: python hadoop hive pyspark

我在Hive上将Cloudera 5.14 Hadoop与PySpark一起使用。我想知道是否有可能在Hadoop中提供类似存储过程的功能?

我想要达到的目标?有什么办法可以设置一些正在运行的作业,例如每天早晨,访问一些Hive表并在其中写一些东西,然后发送电子邮件。

那将是必要的-请注意,我没有群集的管理权限,但是我可以通过 subprocess python模块运行shell脚本。另外,是否可以通过某种方式从PySpark脚本发送电子邮件?

1 个答案:

答案 0 :(得分:0)

Hadoop无法自行安排工作。您可以使用Apache Oozie Workflow Scheduler for Hadoop

安排工作

使用简单的cron作业执行脚本文件的另一种方式