下载网站的源代码

时间:2016-01-28 21:03:39

标签: pentaho kettle pdi

我想从一个网页下载html代码源。我可以使用HTTP客户端吗? 在这种情况下,我以前要生成行吗? 我正在使用Pentaho Data Integration 6,谢谢。

1 个答案:

答案 0 :(得分:0)

要从网页下载HTML,您应该使用HTTP Client。来自documentation

  

HTTP客户端步骤没有做任何事情

     

问:HTTP客户端步骤没有做任何事情,我该如何使其工作?

     

答:需要触发HTTP客户端步骤。使用行生成器步骤生成例如1个空行和带有跳转到HTTP客户端步骤的链接。

所以你需要先拥有行。例如,使用您要获取的网址Generate RowsData Grid

image of transformation

如果您只想在HTTP Client中添加HTML页面的网址,那么HTML将被放入result