我正在研究我的个人学士学位最终项目,该项目将在大约50天内完成。我想要创建的网站是一个用户可以分享链接到他们觉得有趣的文章(让他们开心的东西)的网站。这是一种类似reddit的格式,用户可以在全球发布,其他人可以根据文章的高兴度来投票或者投票。最热门的帖子将显示在列表的顶部,而最不受欢迎的帖子将显示在底部。
该项目中更令人兴奋的部分是实施一个NLP机器学习服务,该服务在网上抓取类似于最热门趋势的文章,并自动将文章发布到网站上(除了投票之外没有用户输入)。为了做到这一点,我考虑在服务器上运行斯坦福CoreNLP服务,挑选出最热门的文章,根据它们的内容对它们进行分类(例如关于唐纳德特朗普的文章应该自动生成标签,如'唐纳德特朗普','共和党','政治'等)然后通过对文章进行情感分析,使用斯坦福CoreNLP情感注释器,我可以看到公众对文章主题的看法(即标签)。然后通过使用网络爬虫,从网络中提取文章,并对提取的文章进行类似的情绪分析,我可以找到合适的文章发布到网站。
但是,我无法在Stanford CoreNLP中找到任何用于文本分类的注释器。有什么方法可以实现我的想法。更好的是,有没有更好的方法来实现我想要实现的目标。
提前致谢。
答案 0 :(得分:0)
我认为这个答案不会对发布的人有所帮助,但希望其他人可能会受益。我觉得这个问题中的很多东西都被错误地表达了,但是我觉得你需要这些东西 -
来到你的最后一个问题,如果你正在使用R - 这是代码:
t<- "This tea is great" # the input text
annotatedStr <- annotateString(t) #annotator
sentiment <- getSentiment(annotation) #call to get your sentiment score