我有一个项目,我想识别给定文本的作者,博客 如何为特定作者创建训练数据和语料库?
请建议一些链接以及相同的算法。
答案 0 :(得分:3)
作者身份识别任务的方法很多。既然你似乎是NLP的新手,我建议从一个基本的,词袋矢量方法开始:
现在有一个重要的问题是,作者身份识别的聚类与普通文档聚类不同:在正常的文档聚类中,我们试图忽略“停用词”,高频词如“the”,“be”,“that”,等等,只关注“内容词”。但在作者身份识别中,事实证明,那些禁忌词是使个人写作独特的东西!因此,矢量实际上应该根据作者在写作中使用这些功能词的方式进行聚类。
下一步,尝试使用更好的功能,例如单词双字母,因为这些可以更好地洞察作者写作风格的独特方面。
有关该地区和人们尝试过的技术的广泛视图,请查看Google scholar要说的内容。您可能应该查找调查文章或其他提供该领域概述的论文,以便您可以很好地了解人们尝试过什么以及取得了哪些成功。
答案 1 :(得分:1)
你可以使用神经网络。例如,有一篇文章here试图找出莎士比亚,弗莱彻和马洛作品的作者。它还包括一些python脚本(以及C中的神经网络实现)。还有一些数据文件可以让您了解如何撰写培训数据。
但如前所述,目前你的问题仍然过于宽泛。希望这个例子可以让你开始,所以你可以回来问更具体的问题。