我的Data Lake Store里有一堆HTML文件,想把他们的完整源代码放到一个表中(只有一列包含所有文件的代码,输出格式与我无关,但可能是tsv)。我无法找到一种方法来使用标准的Extractors或网络上适合我的任何东西。我是否必须为此编写自定义提取器?
我尝试过Extractors.Tsv()和Extractors.Text()以及一大堆分隔符。我第一次尝试:
@data =
EXTRACT source string
FROM "<MY DIRECTORY IN ADL>"
USING Extractors.Text(delimiter:'');
这没有用,因为它似乎不喜欢没有分隔符,但是当我尝试使用不在html文件中的分隔符时它也没有用完。
有没有人知道如何完成这项工作?在我看来,我只是愚蠢,所以我希望这里的人有点聪明。
如果我在两列中有源代码+文件名,那么比源代码更好,但我想从小开始。
谢谢!
答案 0 :(得分:0)
@files =
EXTRACT FileName string,
Text string
FROM @"/somepath/{FileName}.html"
USING Extractors.Text(silent: true, delimiter: '`');
OUTPUT @files
TO "/somepath/Test.txt"
USING Outputters.Tsv(outputHeader: false, quoting: false);