我最近使用语言API来收集工作项目的情绪预测。我有大约1,300个未标记的文档,我们最初使用的是NLTK工具,它基于一个词典,其中包含字典中每个单词的极性估计。我转向API,在查看预测后,API产生的结果比NLTK好得多。
据我所知,工程师可能不想发布预测引擎的详细信息,但我很好奇它是如何工作的。如果有人能够启发我或指出我正确的方向,我会很感激。例如," 它使用神经网络,训练数十亿的观察,"这将是一个合理的答案。
同样,我将其用于工作项目,并且我希望能够简单说明为什么我从NLTK切换到API(改进的结果应该说明一切,但是我一定会得到"好吧,它是如何运作的?")。
答案 0 :(得分:3)
语言API是最先进的机器学习系统的管道,它们通过公共数据(如Penn Treebank)和谷歌语言学家注释的专有数据的组合进行培训。 p>
与NLTK相比,性能改进来自于更多更好的培训数据,以及尖端的机器学习算法,包括但不限于神经网络。
讨论一些算法的相关链接: