应用错误收集

我需要上传网络链接上的数据，例如，例如“博客” 到 hdfs 。

现在我正在寻找完成此选项的选项，可以在下面找到链接：

但通过 flume docs 阅读，我不知道如何设置水槽来源 指向博客内容所在的网站。

根据我对fluem doc的理解，需要有webserver，我需要部署一个应用程序，然后生成将通过flume传输到hdfs的weblogs。

但我不想要网络服务器日志，实际上我正在寻找博客内容（即所有数据+博客上的评论，如果有的话），这是非结构化数据，那么我想进一步处理这个数据使用java map-reduce。

但不确定我是朝着正确的方向前进。

我也经历过pentaho。但不清楚如果使用PDI我可以从a获取数据网站并将其上传到hdfs。

上述任何信息都非常有用。

提前致谢。