U-SQL提取文件完整内容(从html文件中提取完整源代码)

时间:2017-10-06 10:07:10

标签: azure-data-lake u-sql extractor

我的Data Lake Store里有一堆HTML文件,想把他们的完整源代码放到一个表中(只有一列包含所有文件的代码,输出格式与我无关,但可能是tsv)。我无法找到一种方法来使用标准的Extractors或网络上适合我的任何东西。我是否必须为此编写自定义提取器?

我尝试过Extractors.Tsv()和Extractors.Text()以及一大堆分隔符。我第一次尝试:

@data =
EXTRACT source string
FROM "<MY DIRECTORY IN ADL>"
USING Extractors.Text(delimiter:'');

这没有用,因为它似乎不喜欢没有分隔符,但是当我尝试使用不在html文件中的分隔符时它也没有用完。

有没有人知道如何完成这项工作?在我看来,我只是愚蠢,所以我希望这里的人有点聪明。

如果我在两列中有源代码+文件名,那么比源代码更好,但我想从小开始。

谢谢!

1 个答案:

答案 0 :(得分:0)

@files =

EXTRACT FileName string,
        Text string
FROM @"/somepath/{FileName}.html"
USING Extractors.Text(silent: true, delimiter: '`');

OUTPUT @files TO "/somepath/Test.txt" USING Outputters.Tsv(outputHeader: false, quoting: false);