我正在使用Hadoop处理短信(SMS)。但我不确定预处理这些数据的最佳方法,以便我可以进行有效的搜索。例如,如果有人搜索“NY”,则在预处理数据后,我将能够显示包含“NY”字样的消息。 是否可以将预处理数据写入xml文件而不是数据库。
注意:我在.csv文件中有大约200K条短信。
答案 0 :(得分:0)
我将预处理数据导入hdfs的方法是首先将数据(在您的案例中为csv文件)导入数据库,然后创建一个表格视图,根据您的需要对其进行微调。然后我使用Sqoop将数据导入hdfs。有关sqoop的更多信息,请点击此处
http://www.cloudera.com/blog/2009/06/introducing-sqoop/
从数据库进行sqoop导入时,请查看
http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html#_connecting_to_a_database_server
答案 1 :(得分:0)
您可能希望为短信编制索引,可能使用类似Lucene的内容。
答案 2 :(得分:0)
去吧 Solr(特别用于文本挖掘)
强大的全文搜索
提供动态群集
还提供数据库集成
支持.csv,.xml,word,pdf ..
高度可扩展