将数据从网站加载到hdfs

时间:2013-04-11 07:38:43

标签: hadoop

我需要上传网络链接上的数据,例如,例如“博客” hdfs

现在我正在寻找完成此选项的选项,可以在下面找到链接:

http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/

但通过 flume docs 阅读,我不知道如何设置水槽来源 指向博客内容所在的网站。

根据我对fluem doc的理解,需要有webserver,我需要部署一个应用程序,然后生成将通过flume传输到hdfs的weblogs。

但我不想要网络服务器日志,实际上我正在寻找博客内容(即所有数据+博客上的评论,如果有的话),这是非结构化数据,那么我想进一步处理这个数据使用java map-reduce。

但不确定我是朝着正确的方向前进。

我也经历过pentaho。但不清楚如果使用PDI我可以从a获取数据 网站并将其上传到hdfs。

上述任何信息都非常有用。

提前致谢。

1 个答案:

答案 0 :(得分:3)

Flume可以提取数据(如Twitter的情况),也可以将数据推送到Flume,就像使用FlumeAppender的服务器日志一样。

将博客数据导入HDFS

a)博主应用程序应该将数据推送到HDFS,就像FlumeAppender一样。必须对博客应用程序进行更改,而在大多数情况下情况并非如此。

b)Flume可以使用适当的API来提取博客数据,就像Twitter一样。 Blogger提供了一个用于提取代码的API,可以在Flume源中使用。 Cloudera blogreference来Flume代码从Twitter中提取数据。