bigdata - 使用BigDataBatch作业进行tFlowToIterate

使用BigDataBatch作业进行tFlowToIterate

时间：2019-11-18 09:18:39

标签： bigdata talend

我目前在Talend上有一个简单的标准工作：

它仅读取几行文件（tHDFSInput），然后针对该文件的每一行（tFlowToIterate），根据我在文件中读取的内容（tHiveRow）创建一个INSERT查询“ INSERT ... SELECT ... FROM” 。而且效果很好，只是有点慢。

我现在需要修改我的“标准”作业以进行“大数据批处理”作业，以使其更快，并且还因为我们要求我从现在开始仅进行大数据批处理。
事实是，没有tFlowToIterate和带有大数据批处理的tHiveRow组件...

我该怎么做？

非常感谢。

2 个答案:

答案 0 :(得分：1)

尽管我还没有尝试过此解决方案，但我认为这可以为您提供帮助。

预先创建配置单元表。
在作业中放置tHDFSConfiguration组件并提供群集详细信息。
使用tFileInputDelimited组件。在提供存储配置为tHDFSConfiguration（在步骤1中定义）时，将从HDFS中读取。
使用tHiveOutput组件。将tFileInputDelimited连接到tHiveOutput。在tHiveOutput中，您可以提供表格，格式和保存模式。

答案 1 :(得分：0)

为了不修改数据就将HDFS加载到Hive中，也许您只能使用一个组件：tHiveLoad

将HDFS路径插入组件中。

tHiveLoad文档：https://help.talend.com/reader/hCrOzogIwKfuR3mPf~LydA/ILvaWaTQF60ovIN6jpZpzg