使用BigDataBatch作业进行tFlowToIterate

时间:2019-11-18 09:18:39

标签: bigdata talend

我目前在Talend上有一个简单的标准工作:
Current version of the job
它仅读取几行文件(tHDFSInput),然后针对该文件的每一行(tFlowToIterate),根据我在文件中读取的内容(tHiveRow)创建一个INSERT查询“ INSERT ... SELECT ... FROM” 。而且效果很好,只是有点慢。

我现在需要修改我的“标准”作业以进行“大数据批处理”作业,以使其更快,并且还因为我们要求我从现在开始仅进行大数据批处理。
事实是,没有tFlowToIterate和带有大数据批处理的tHiveRow组件...

我该怎么做?

非常感谢。

2 个答案:

答案 0 :(得分:1)

尽管我还没有尝试过此解决方案,但我认为这可以为您提供帮助。

  1. 预先创建配置单元表。
  2. 在作业中放置tHDFSConfiguration组件并提供群集详细信息。
  3. 使用tFileInputDelimited组件。在提供存储配置为tHDFSConfiguration(在步骤1中定义)时,将从HDFS中读取。
  4. 使用tHiveOutput组件。将tFileInputDelimited连接到tHiveOutput。在tHiveOutput中,您可以提供表格,格式和保存模式。

答案 1 :(得分:0)

为了不修改数据就将HDFS加载到Hive中,也许您只能使用一个组件:tHiveLoad

将HDFS路径插入组件中。

tHiveLoad文档:https://help.talend.com/reader/hCrOzogIwKfuR3mPf~LydA/ILvaWaTQF60ovIN6jpZpzg