我目前在Talend上有一个简单的标准工作:
它仅读取几行文件(tHDFSInput),然后针对该文件的每一行(tFlowToIterate),根据我在文件中读取的内容(tHiveRow)创建一个INSERT查询“ INSERT ... SELECT ... FROM” 。而且效果很好,只是有点慢。
我现在需要修改我的“标准”作业以进行“大数据批处理”作业,以使其更快,并且还因为我们要求我从现在开始仅进行大数据批处理。
事实是,没有tFlowToIterate和带有大数据批处理的tHiveRow组件...
我该怎么做?
非常感谢。
答案 0 :(得分:1)
尽管我还没有尝试过此解决方案,但我认为这可以为您提供帮助。
答案 1 :(得分:0)
为了不修改数据就将HDFS加载到Hive中,也许您只能使用一个组件:tHiveLoad
将HDFS路径插入组件中。
tHiveLoad文档:https://help.talend.com/reader/hCrOzogIwKfuR3mPf~LydA/ILvaWaTQF60ovIN6jpZpzg