使用Hadoop预处理文本消息的最佳方法

时间:2011-07-01 02:46:42

标签: search preprocessor hadoop

我正在使用Hadoop处理短信(SMS)。但我不确定预处理这些数据的最佳方法,以便我可以进行有效的搜索。例如,如果有人搜索“NY”,则在预处理数据后,我将能够显示包含“NY”字样的消息。 是否可以将预处理数据写入xml文件而不是数据库。

注意:我在.csv文件中有大约200K条短信。

3 个答案:

答案 0 :(得分:0)

我将预处理数据导入hdfs的方法是首先将数据(在您的案例中为csv文件)导入数据库,然后创建一个表格视图,根据您的需要对其进行微调。然后我使用Sqoop将数据导入hdfs。有关sqoop的更多信息,请点击此处

http://www.cloudera.com/blog/2009/06/introducing-sqoop/

从数据库进行sqoop导入时,请查看

http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html#_connecting_to_a_database_server

答案 1 :(得分:0)

您可能希望为短信编制索引,可能使用类似Lucene的内容。

答案 2 :(得分:0)

去吧 Solr(特别用于文本挖掘)

  1. 强大的全文搜索

  2. 提供动态群集

  3. 还提供数据库集成

  4. 支持.csv,.xml,word,pdf ..

  5. 高度可扩展