Question

我的Data Lake Store里有一堆HTML文件，想把他们的完整源代码放到一个表中（只有一列包含所有文件的代码，输出格式与我无关，但可能是tsv）。我无法找到一种方法来使用标准的Extractors或网络上适合我的任何东西。我是否必须为此编写自定义提取器？

我尝试过Extractors.Tsv（）和Extractors.Text（）以及一大堆分隔符。我第一次尝试：

@data =
EXTRACT source string
FROM "<MY DIRECTORY IN ADL>"
USING Extractors.Text(delimiter:'');

这没有用，因为它似乎不喜欢没有分隔符，但是当我尝试使用不在html文件中的分隔符时它也没有用完。

有没有人知道如何完成这项工作？在我看来，我只是愚蠢，所以我希望这里的人有点聪明。

如果我在两列中有源代码+文件名，那么比源代码更好，但我想从小开始。

谢谢！

Answer 1

@files =

EXTRACT FileName string,
        Text string
FROM @"/somepath/{FileName}.html"
USING Extractors.Text(silent: true, delimiter: '`');

OUTPUT @files TO "/somepath/Test.txt" USING Outputters.Tsv(outputHeader: false, quoting: false);