使用U-SQL删除字符串中的空行

时间:2018-07-30 19:35:18

标签: azure azure-data-lake u-sql

我从客户的评论中了解到用U-SQL组合/格式化的蔚蓝数据湖。一些客户在其注释行之间留有空格。知道如何使用U-Sql删除这些空白行吗?

例如一个评论

My name is abc
<blank line>
I love playing football. 

需要删除之间的空白行。 Trim()仅删除开始和结束空格。谢谢。

1 个答案:

答案 0 :(得分:0)

您可以使用RegEx和U-SQL清理文本,例如,此简单脚本将两个回车符替换为一个回车符,从而删除了空白行:

@input = 
    SELECT * FROM
        ( VALUES
            ( 1, @"My name is abc

I love playing football." ),
            ( 2, @"I love U-SQL

I'm indifferent to Hadoop." )
        ) AS x( id, review );



// Strip out repeated carriage returns
@output =
    SELECT id, 
            Regex.Replace(review, "(\r\n){2}", "\r\n", RegexOptions.Multiline) AS cleanedReview
    FROM @input;


OUTPUT @output
TO "/output/output.csv"
USING Outputters.Csv();

您可能必须尝试使用​​RegEx表达式来清理您的特定数据。