数据挖掘和基于文本的分析的模式识别

时间:2012-06-23 06:13:43

标签: algorithm twitter machine-learning data-mining

我正在创建一个软件,用于转储任何用户评论和发布在Twitter个人资料上的关于某些化妆品“XYZ”的纯文本。我已经解析了从Twitter API收到的JSON对象,并将原始数据转储到MySql数据库中。

现在我必须分析这些纯文本以获取模式,无论是关于化妆品“XYZ”的好评还是坏评论等,并将此信息提供给单独的API,用于在HTML中创建dymnamic可视图表。

我在DataMining和基于文本的模式识别领域是全新的。如果有人能够建议如何从我的数据库中的纯文本中继续使用模式识别算法来为我单独的可视化图表API提供提要,那将非常感激。

6 个答案:

答案 0 :(得分:12)

我真的鼓励您观看以下NLP Stanford lectures,特别是:

   

  • 第3周 - 情绪分析(这是你想要达到的目标)
  •    
  • 第4周 - 关系提取(赫斯特模式等)
  • 我认为你会发现它们是非常有价值的资源。

    答案 1 :(得分:3)

    如果您了解模式识别的基础知识:

    1. 手动为您的产品创建两组(正面和负面)Twitter帖子。
    2. 为发布定义指标,内核或相似性度量。您可以使用高维二进制向量,每个组成代表一个单词,其中值1表示存在,0表示该单词不存在。您还可以为否定词添加特殊权重,例如" not"。
    3. 使用机器学习算法在您手动创建的集合(类)上训练分类器。您可以使用SVM,神经网络,最近邻分类器......
    4. 使用经过培训的分类器对新的Twitter帖子进行分类。
    5. 这是高层次的基本理念。当然,有许多细节需要处理,但解释它们超出了SO答案的范围。

    答案 2 :(得分:2)

    此子域名称为情绪分析。有很多关于这个主题的讲座和文章。不幸的是,到目前为止我看到的真实结果对我来说并不那么令人信服。

    这项挑战的关键是获得良好的培训数据。让自己成为一个工具,让您快速浏览数据,手动将其标记为正/中立/否定,以快速获得实质性的训练集。

    请参阅Stanford NLP Lectures,特别是第3周,了解整体流程和一些最先进的方法和技巧。

    答案 3 :(得分:0)

    您可能需要查看Mahout(在这种情况下,您可能希望将数据加载到HDFS中)。

    你并不是对你的用例非常具体,文本分析不是一个容易的问题,但Mahout绝对是机器学习应用程序的一个很好的“开箱即用”工具。

    你也可以看看这本非常好的书:Taming Text

    答案 4 :(得分:0)

    我对你的问题的理解是你需要一个分类器来区分评论的好坏。

    为了解决这类问题,统计方法被证明是有效的,就像垃圾邮件分类器一样。

    您可以查看贝叶斯分类器相关项目,例如cardmagic/classifier,看看它是否有用。

    答案 5 :(得分:0)

    您可能需要查看Frontline Systems的产品XLMiner:http://www.solver.com/xlminer/

    它是Excel的数据挖掘加载项,具有许多内置功能。