我在Hive上将Cloudera 5.14 Hadoop与PySpark一起使用。我想知道是否有可能在Hadoop中提供类似存储过程的功能?
我想要达到的目标?有什么办法可以设置一些正在运行的作业,例如每天早晨,访问一些Hive表并在其中写一些东西,然后发送电子邮件。
那将是必要的-请注意,我没有群集的管理权限,但是我可以通过 subprocess python模块运行shell脚本。另外,是否可以通过某种方式从PySpark脚本发送电子邮件?
答案 0 :(得分:0)
Hadoop无法自行安排工作。您可以使用Apache Oozie Workflow Scheduler for Hadoop
安排工作使用简单的cron
作业执行脚本文件的另一种方式