我需要分析用户的帖子并对其进行分类。例如:我必须根据文本将每个帖子分类为“买入”帖子或“卖出”帖子 - “我希望卖出我的房子”被归类为“卖出”。问题是通常不那么简单 - “我想要摆脱我的旧房子”也需要被归类为“卖”。 “我正在找房子”变成“买”。我还想根据相关项目对这些帖子进行分类 - 例如,上面的帖子将被归类为“购买”和“房子”。
在分析和理解用户输入方面,有人可以推荐一个好的方法/好的框架/技术吗? 感谢。
答案 0 :(得分:3)
您所谈论的内容基本上是Bayesian filtering problem,也用于垃圾邮件过滤。另见this talk。这是一个相当复杂的领域。
答案 1 :(得分:2)
你是对的;这是一件很难的事。
雅虎!您可以使用Term Extraction API / Web服务。这是一种非常好的方法,可以在您自己的文本上使用语言分析,而无需编写一百万行代码来自行完成。我没有使用它,所以我不知道它的效果如何与你的问题有相似的含义。