Question

我正在研究我的个人学士学位最终项目，该项目将在大约50天内完成。我想要创建的网站是一个用户可以分享链接到他们觉得有趣的文章（让他们开心的东西）的网站。这是一种类似reddit的格式，用户可以在全球发布，其他人可以根据文章的高兴度来投票或者投票。最热门的帖子将显示在列表的顶部，而最不受欢迎的帖子将显示在底部。

该项目中更令人兴奋的部分是实施一个NLP机器学习服务，该服务在网上抓取类似于最热门趋势的文章，并自动将文章发布到网站上（除了投票之外没有用户输入）。为了做到这一点，我考虑在服务器上运行斯坦福CoreNLP服务，挑选出最热门的文章，根据它们的内容对它们进行分类（例如关于唐纳德特朗普的文章应该自动生成标签，如'唐纳德特朗普'，'共和党'，'政治'等）然后通过对文章进行情感分析，使用斯坦福CoreNLP情感注释器，我可以看到公众对文章主题的看法（即标签）。然后通过使用网络爬虫，从网络中提取文章，并对提取的文章进行类似的情绪分析，我可以找到合适的文章发布到网站。

但是，我无法在Stanford CoreNLP中找到任何用于文本分类的注释器。有什么方法可以实现我的想法。更好的是，有没有更好的方法来实现我想要实现的目标。

提前致谢。

Answer 1

我认为这个答案不会对发布的人有所帮助，但希望其他人可能会受益。我觉得这个问题中的很多东西都被错误地表达了，但是我觉得你需要这些东西 -

一款可让用户与“喜欢”功能分享链接的应用
从趋势帖子（您使用喜欢的计数找到）确定趋势主题：您需要应用一些算法（可能是主题建模）才能找到这个。
网络抓取工具/抓取工具，可让您获取有关算法识别的主题的文章
你也想用极性分数标记你的文章（你实际上并不需要coreNLP，因为还有其他软件包可用，我发现coreNLP很重 - 我从R运行它并且曾经遇到过一些Java与记忆相关的错误经常发生。但对于其他与NLP相关的任务，这是很好的。）

来到你的最后一个问题，如果你正在使用R - 这是代码：

 t<- "This tea is great" # the input text

annotatedStr <- annotateString(t) #annotator

sentiment <- getSentiment(annotation) #call to get your sentiment score

斯坦福CoreNLP情感分析与文本分类

1 个答案: