Python UDF - 导入/读取外部文件

时间:2016-03-28 06:00:40

标签: python hive udf

我想将其他python / csv文件导入到我的python udf中以执行某些操作 像,
将表数据(以流为单位,逐行流入)与外部.csv行进行比较 当我尝试读取.csv文件的数据时,它给了我一个错误

  

IOError:文件/home/abc/xyz/myfile.csv不存在

虽然代码编写为常规python脚本(不像udf)时代码运行良好

2 个答案:

答案 0 :(得分:1)

如果我理解正确的话。你可以试试 添加文件[完整的文件路径] 要么 添加文件[您的目录路径]。

因为在引用群集之前的任何内容之前,必须将其添加到分发缓存中,以便那里的代码可以访问该部分。 你可以看看它。 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Cli

答案 1 :(得分:0)

注意语法!它可能会导致许多问题,遗憾的是,查询语言解释器无法显示问题的来源,只是显示了一些常规错误报告。

在这里查看由于解决文件时的语法问题而引起的同样问题!

Accessing external file in Python UDF