使用Flume在HDFS中获取Twitter数据时出现问题

时间:2016-09-25 12:29:37

标签: hadoop twitter hdfs flume flume-twitter

我正在尝试在HDFS中获取推特数据,但却遇到了问题。

这是我的 flume.conf文件

[DataMember]
public List<Models.Appointment> RecentAppointments
{
    get;
    private set;
}

Env.sh 文件中,我有路径

TwitterAgent.sources= Twitter
TwitterAgent.channels= MemChannel
TwitterAgent.sinks=HDFS
TwitterAgent.sources.TwitterSource.type=org.apache.flume.source.twitter.TwitterSource
TwitterAgent.sources.Twitter.channels=MemChannel
TwitterAgent.sources.Twitter.consumerKey=xxxxxxxxxxx
TwitterAgent.sources.Twitter.consumerSecret=    xxxxxxxxxxxxxxx
TwitterAgent.sources.Twitter.accessToken=xxxxxxxxxx
TwitterAgent.sources.Twitter.accessTokenSecret=xxxxxxxxxxx
TwitterAgent.sources.Twitter.keywords= hadoop,election,sports, cricket,Big data
TwitterAgent.sinks.HDFS.channel=MemChannel
TwitterAgent.sinks.HDFS.type=hdfs
TwitterAgent.sinks.HDFS.hdfs.path=hdfs://localhost:9000/user/flume/tweets
TwitterAgent.sinks.HDFS.hdfs.fileType=DataStream
TwitterAgent.sinks.HDFS.hdfs.writeformat=Text
TwitterAgent.sinks.HDFS.hdfs.batchSize=1000
TwitterAgent.sinks.HDFS.hdfs.rollSize=0
TwitterAgent.sinks.HDFS.hdfs.rollCount=10000
TwitterAgent.sinks.HDFS.hdfs.rollInterval=600
TwitterAgent.channels.MemChannel.type=memory
TwitterAgent.channels.MemChannel.capacity=10000
TwitterAgent.channels.MemChannel.transactionCapacity=100

现在我使用以下命令获取数据 -

 #FLUME_CLASSPATH="/usr/lib/flume-sources-1.0-SNAPSHOT.jar"

它显示了一些日志,但我收到了以下错误,并且在HDFS接收器启动后卡住了。

[cloudera@quickstart etc]$ flume-ng agent -n TwitterAgent -c conf -f /etc/flume-ng/conf/flume.conf

1 个答案:

答案 0 :(得分:0)

在配置文件中,请替换

TwitterAgent.sources.TwitterSource.type=org.apache.flume.source.twitter.TwitterSource

通过

TwitterAgent.sources.Twitter.type=org.apache.flume.source.twitter.TwitterSource