我希望编写一个脚本来解析用户的推文并将其分类为之前指定的类别。例如:
工会负责人http://bit.ly/145CRAD说:“如果被布莱尔派'诱惑',埃德米利班德将失去选举”{/ 3}}
将在域政治中进行分类。
“亲爱的Sachin,你是40岁。买一辆跑车,有20岁的金发女郎。享受你的中年危机。给男孩留下IPL - 你的粉丝”
将在域名Cricket中进行分类。
这样做的最佳方式是什么?
答案 0 :(得分:4)
您正在寻找“Topic Model”。技术包括Latent Dirichlet Allocation等。维基百科文章包含Mallet等资源的链接,这些资源可以为您提供帮助。
您没有指定您想要使用的语言,也没有说明“最佳”的含义?最简单的实施,最快或最好的结果?
另一种选择是使用人类(例如亚马逊机械土耳其人),这可能会给你推特的“最佳”结果,因为所有的缩写,讽刺和哈希标签都很难分类... #notAnEasyProblem。
答案 1 :(得分:1)
这篇论文将是一个很好的开始寻找... http://dl.acm.org/citation.cfm?id=1835643 http://www.tmrfindia.org/ijcsa/v9i15.pdf
答案 2 :(得分:1)
这是自然语言处理(NLP)领域中的一个复杂问题,称为 document classification 。其中一个最好的开源库由The Stanford NLP Group维护。祝你好运!
答案 3 :(得分:0)
lda怎么样?主题模型!
你可以在python中尝试online-lda
http://www.cs.princeton.edu/~blei/topicmodeling.html
然后如果你想尝试分发lda(更快)
你可以试试light-lda