我正在开发一项新服务,它将查询多个优惠(Groupon等等),我想破译属于此优惠的类别。
示例:
我得到这个头衔:“Acqualina Wellness Expo - Acqualina Resort& Spa”,我需要找出属于此类优惠的类别。
我尝试使用http://www.google.com/insights/search/,但这并不容易,因为它只收到7个参数(术语),有时我们会有无法分开的复合词。
答案 0 :(得分:1)
有基于Wordnet和搜索距离等的有趣方法,但标准方式是贝叶斯垃圾邮件过滤方法。
第1步:构建标题(或标题和正文)的示例集以及您认为它属于哪个类别。你做得越大越多样化越好。您需要拥有许多(比如至少两位数,但最好是数百个)您希望能够识别的每个类别的不同示例。如果您需要帮助构建此集合,您可以使用亚马逊的Mechanical Turk并向其他人付费进行分类。
第2步:运行CRM114(http://crm114.sourceforge.net/)或类似内容的所有示例。如果您想使用云服务,我认为Google Prediction API允许使用文本字段。
第3步:为了进行测试,请不要让分类程序查看所有示例。保留一些所谓的样本外集,您可以测试您的分类程序。它对它已经看到的东西进行分类要容易得多,所以你要确保你知道看不见的例子有多好。某些分类程序会自动为您执行此测试。
祝你好运!