在USQL Azure Data湖中更新

时间:2016-10-25 14:33:43

标签: azure azure-data-lake u-sql

我有什么方法可以更新rowset中的值

数据:

1,apple,0
2,check,1
3,chec,1

USQL脚本:

@result = EXTRACT
ID int,
value string,
types int
FROM @"TLD_BT/sacmple.txt"
USING Extractors.Csv();

现在我想更新上面的结果集@result set type = 1其中value是apple

我尝试了以下脚本。

UPDATE @result SET types=1 WHERE value="apple"

但我得到以下错误:

UPDATE  ### @result SET types=1 WHERE value="apple"

Error
   E_CSC_USER_SYNTAXERROR
Message
    syntax error. Expected one of: STATISTICS

无论如何,我可以更新行集的值,还是应该找出其他任何解决方法。

2 个答案:

答案 0 :(得分:4)

此时U-SQL中没有UPDATE命令,但您可以使用条件语句创建新列并输出该列。您还可以使用CTAS语法创建新的内部表。以下示例:

@result =
    EXTRACT [ID] int,
            value string,
            types int
    FROM @"input/input.txt"
    USING Extractors.Csv();

//UPDATE @result SET types=1 WHERE value="apple"
@output =
    SELECT [ID] AS id,
           value,
           value == "apple"? 1 : types AS types
    FROM @result;

// CTAS
CREATE TABLE IF NOT EXISTS dbo.interimResult
(
    INDEX cdx_Result
    CLUSTERED(id)
    DISTRIBUTED BY
    ROUND ROBIN
)
AS
SELECT [ID] AS id,
       value,
       value == "apple"? 1 : types AS types
FROM @result;


// output result
OUTPUT @output TO "/output/adlaresult.csv"
USING Outputters.Csv();

希望这是有道理的。另见:U-SQL DML Statements

答案 1 :(得分:1)

如果要更新同一个表,我们创建一个新分区并插入Unchanged和new记录。这样,新分区将始终具有最新数据集