我需要上传网络链接上的数据,例如,例如“博客” 到 hdfs 。
现在我正在寻找完成此选项的选项,可以在下面找到链接:
http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/
但通过 flume docs 阅读,我不知道如何设置水槽来源 指向博客内容所在的网站。
根据我对fluem doc的理解,需要有webserver,我需要部署一个应用程序,然后生成将通过flume传输到hdfs的weblogs。
但我不想要网络服务器日志,实际上我正在寻找博客内容(即所有数据+博客上的评论,如果有的话),这是非结构化数据,那么我想进一步处理这个数据使用java map-reduce。
但不确定我是朝着正确的方向前进。
我也经历过pentaho。但不清楚如果使用PDI我可以从a获取数据 网站并将其上传到hdfs。
上述任何信息都非常有用。
提前致谢。
答案 0 :(得分:3)
Flume可以提取数据(如Twitter的情况),也可以将数据推送到Flume,就像使用FlumeAppender的服务器日志一样。
将博客数据导入HDFS
a)博主应用程序应该将数据推送到HDFS,就像FlumeAppender一样。必须对博客应用程序进行更改,而在大多数情况下情况并非如此。
或
b)Flume可以使用适当的API来提取博客数据,就像Twitter一样。 Blogger提供了一个用于提取代码的API,可以在Flume源中使用。 Cloudera blog有reference来Flume代码从Twitter中提取数据。