我使用Apache Flume将大量推文传输到Hadoop的HDFS中。我试图对这些数据进行情绪分析 - 这只是一些简单的事情,比如积极的v负面词比较。
我的问题是,我找到的所有指南告诉我如何操作它有一个正面和负面文字的文本文件,然后是每个推文都有一个巨大的文本文件。
当我使用Flume时,我的所有数据都已经在Hadoop中了。当我使用localhost:50070访问它时,我可以根据月/日/小时在单独的文件中查看数据,每个文件包含三个或四个推文。我每小时可能有50个这样的文件。虽然它没有在任何地方说,我假设它们是JSON格式。
牢记这一点,我如何对它们进行分析?在我已经看到Mapper和Reducer编写的所有示例中,已经执行了单个文件,而不是大型小JSON文件集合。我的下一步应该是什么?
答案 0 :(得分:1)
这个例子可以帮助你入门 https://github.com/cloudera/cdh-twitter-example
基本上使用hive外部表来映射你的json数据和查询使用hiveql
答案 1 :(得分:0)
如果要处理目录中的所有文件,只需指定目录的路径作为hadoop作业的输入文件,以便将该目录中的所有文件视为其输入。
例如,如果您的小文件位于 / user / flume / tweets /....目录中,那么在您的hadoop作业中,您只需指定 / user / flume / tweets / 作为输入文件。
如果您想每隔一小时自动进行分析,则需要编写一个oozie工作流程。
您可以参考以下链接,了解配置单元中的情绪分析
https://acadgild.com/blog/sentiment-analysis-on-tweets-with-apache-hive-using-afinn-dictionary/