我正在创建一个软件,用于转储任何用户评论和发布在Twitter个人资料上的关于某些化妆品“XYZ”的纯文本。我已经解析了从Twitter API收到的JSON对象,并将原始数据转储到MySql数据库中。
现在我必须分析这些纯文本以获取模式,无论是关于化妆品“XYZ”的好评还是坏评论等,并将此信息提供给单独的API,用于在HTML中创建dymnamic可视图表。
我在DataMining和基于文本的模式识别领域是全新的。如果有人能够建议如何从我的数据库中的纯文本中继续使用模式识别算法来为我单独的可视化图表API提供提要,那将非常感激。
答案 0 :(得分:12)
答案 1 :(得分:3)
如果您了解模式识别的基础知识:
这是高层次的基本理念。当然,有许多细节需要处理,但解释它们超出了SO答案的范围。
答案 2 :(得分:2)
此子域名称为情绪分析。有很多关于这个主题的讲座和文章。不幸的是,到目前为止我看到的真实结果对我来说并不那么令人信服。
这项挑战的关键是获得良好的培训数据。让自己成为一个工具,让您快速浏览数据,手动将其标记为正/中立/否定,以快速获得实质性的训练集。
请参阅Stanford NLP Lectures,特别是第3周,了解整体流程和一些最先进的方法和技巧。
答案 3 :(得分:0)
您可能需要查看Mahout(在这种情况下,您可能希望将数据加载到HDFS中)。
你并不是对你的用例非常具体,文本分析不是一个容易的问题,但Mahout绝对是机器学习应用程序的一个很好的“开箱即用”工具。
你也可以看看这本非常好的书:Taming Text
答案 4 :(得分:0)
我对你的问题的理解是你需要一个分类器来区分评论的好坏。
为了解决这类问题,统计方法被证明是有效的,就像垃圾邮件分类器一样。
您可以查看贝叶斯分类器相关项目,例如cardmagic/classifier,看看它是否有用。
答案 5 :(得分:0)
您可能需要查看Frontline Systems的产品XLMiner:http://www.solver.com/xlminer/
它是Excel的数据挖掘加载项,具有许多内置功能。