如何阅读来自twitter的flume生成的数据文件

时间:2016-03-05 02:17:26

标签: hadoop twitter flume

我在HDFS上使用flume生成了一些twitter数据日志文件,日志文件的实际格式是什么?我期待json格式的数据。但它看起来像 this。有人可以帮我解读这些数据吗?或者我做这个的方式有什么问题

2 个答案:

答案 0 :(得分:0)

在hive中使用serde创建一个表,然后将twitter日志数据加载到hive表中。然后分析它。

答案 1 :(得分:0)

从此链接下载文件(hive-serdes-1.0-SNAPSHOT.jar)
http://files.cloudera.com/samples/hive-serdes-1.0-SNAPSHOT.jar

然后将此文件放在$ HIVE_HOME / lib中 将jar添加到hive shell

hive> ADD JAR file:///home/hadoop/work/hive-0.10.0/lib/hive-serdes-1.0-SNAPSHOT.jar

在配置单元中创建一个表

hive> CREATE TABLE tweets (
id BIGINT,
created_at STRING,
source STRING,
favorited BOOLEAN,
retweeted_status STRUCT<
text:STRING,
user:STRUCT<screen_name:STRING,name:STRING>,
retweet_count:INT>,
entities STRUCT<
urls:ARRAY<STRUCT<expanded_url:STRING>>,
user_mentions:ARRAY<STRUCT<screen_name:STRING,name:STRING>>,
hashtags:ARRAY<STRUCT<text:STRING>>>,
text STRING,
user STRUCT<
screen_name:STRING,
name:STRING,
friends_count:INT,
followers_count:INT,
statuses_count:INT,
verified:BOOLEAN,
utc_offset:INT,
time_zone:STRING>,
in_reply_to_screen_name STRING
) 
ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe';

从hdfs

将数据加载到表中
hive> load data inpath '/home/hadoop/work/flumedata' into table tweets;

现在分析一下这张表中的推特数据

hive> select id,text,user from tweets;

你完成了,但它是反序列化的数据,现在从hive表序列化..