如何在HDFS中存储特定的网站推文?
假设有一个网站www.abcd.com,我想收集该网站的所有用户推文并存储到HDFS或Hive中。
Flume和sqoop也有助于存储数据。
所以任何人都可以建议我在HDFS中存储推文时如何使用flume和sqoop?
答案 0 :(得分:1)
Sqoop不是为此而制作的。 Flume用于满足这些需求。您可以编写自定义Flume源,它将提取推文并将其转储到您的HDFS中。例如,请参阅 this 。它显示了如何使用Flume从Twitter Streaming API收集数据,并将其转发到HDFS。
您可以在 official documentation 中找到更多信息。
答案 1 :(得分:0)