斯坦福CoreNLP情感分析与文本分类

时间:2016-04-17 12:51:49

标签: web-crawler nlp stanford-nlp sentiment-analysis text-classification

我正在研究我的个人学士学位最终项目,该项目将在大约50天内完成。我想要创建的网站是一个用户可以分享链接到他们觉得有趣的文章(让他们开心的东西)的网站。这是一种类似reddit的格式,用户可以在全球发布,其他人可以根据文章的高兴度来投票或者投票。最热门的帖子将显示在列表的顶部,而最不受欢迎的帖子将显示在底部。

该项目中更令人兴奋的部分是实施一个NLP机器学习服务,该服务在网上抓取类似于最热门趋势的文章,并自动将文章发布到网站上(除了投票之外没有用户输入)。为了做到这一点,我考虑在服务器上运行斯坦福CoreNLP服务,挑选出最热门的文章,根据它们的内容对它们进行分类(例如关于唐纳德特朗普的文章应该自动生成标签,如'唐纳德特朗普','共和党','政治'等)然后通过对文章进行情感分析,使用斯坦福CoreNLP情感注释器,我可以看到公众对文章主题的看法(即标签)。然后通过使用网络爬虫,从网络中提取文章,并对提取的文章进行类似的情绪分析,我可以找到合适的文章发布到网站。

但是,我无法在Stanford CoreNLP中找到任何用于文本分类的注释器。有什么方法可以实现我的想法。更好的是,有没有更好的方法来实现我想要实现的目标。

提前致谢。

1 个答案:

答案 0 :(得分:0)

我认为这个答案不会对发布的人有所帮助,但希望其他人可能会受益。我觉得这个问题中的很多东西都被错误地表达了,但是我觉得你需要这些东西 -

  • 一款可让用户与“喜欢”功能分享链接的应用
  • 从趋势帖子(您使用喜欢的计数找到)确定趋势主题:您需要应用一些算法(可能是主题建模)才能找到这个。
  • 网络抓取工具/抓取工具,可让您获取有关算法识别的主题的文章
  • 你也想用极性分数标记你的文章(你实际上并不需要coreNLP,因为还有其他软件包可用,我发现coreNLP很重 - 我从R运行它并且曾经遇到过一些Java与记忆相关的错误经常发生。但对于其他与NLP相关的任务,这是很好的。)

来到你的最后一个问题,如果你正在使用R - 这是代码:

 t<- "This tea is great" # the input text

annotatedStr <- annotateString(t) #annotator

sentiment <- getSentiment(annotation) #call to get your sentiment score