我要实现的目标:
DocumentKey,DocumentName
示例值如下(此CSV文件中大约有240,000行):
12212,银河系旅行者指南 12233,MoneyBall
答案 0 :(得分:1)
这是在Data Factory中解决的一个非常有趣的问题。我看到的唯一选择是拥有一个带有接收器分区的数据流,该数据流基于派生列输出文件。
当然,需要注意的是文件名必须唯一,因此我基于示例的第一列(我将其命名为“ Id”)。我不知道280K文件的性能如何,但这应该可以得到想要的结果。
答案 1 :(得分:0)
我实现了以下帮助我解决核心问题的方法(读取CSV文件并将值传递到ForEach循环)。
第1步和第2步不是核心问题的一部分,但可以帮助阅读此书的其他任何人理解FlattenedListDocument.csv的出现方式。
总体架构
步骤1:调用网络服务以获取JSON文件(XML文件作为数据集,JSON文件作为接收器)。
第2步:创建数据流以展平文件。创建一个CSV作为接收器(并将接收器分成100等份(以允许CSV文件中最多增加500,000条记录)。
第3步:对文件进行查找并获取其内容(最终将将其包装在GetMetadata / ForEach循环中,该循环将调用另一个管道以提取每个文件的内容)。
第4步:使用ForEach循环提取内容(这将使用管道中查找中的Name值作为参数来调用另一个WebService)