建议“作者识别”的步骤?

时间:2012-09-20 06:19:50

标签: python nltk corpus

我有一个项目,我想识别给定文本的作者,博客 如何为特定作者创建训练数据和语料库?

请建议一些链接以及相同的算法。

2 个答案:

答案 0 :(得分:3)

作者身份识别任务的方法很多。既然你似乎是NLP的新手,我建议从一个基本的,词袋矢量方法开始:

  1. 提出一系列将作为功能的单词。
  2. 获取每个文档并将其转换为每个特征词的计数向量。
  3. 通过余弦相似性对矢量进行聚类。
  4. 最终位于同一群集中的文档可能由同一作者撰写。
  5. 现在有一个重要的问题是,作者身份识别的聚类与普通文档聚类不同:在正常的文档聚类中,我们试图忽略“停用词”,高频词如“the”,“be”,“that”,等等,只关注“内容词”。但在作者身份识别中,事实证明,那些禁忌词是使个人写作独特的东西!因此,矢量实际上应该根据作者在写作中使用这些功能词的方式进行聚类。

    下一步,尝试使用更好的功能,例如单词双字母,因为这些可以更好地洞察作者写作风格的独特方面。

    有关该地区和人们尝试过的技术的广泛视图,请查看Google scholar要说的内容。您可能应该查找调查文章或其他提供该领域概述的论文,以便您可以很好地了解人们尝试过什么以及取得了哪些成功。

答案 1 :(得分:1)

你可以使用神经网络。例如,有一篇文章here试图找出莎士比亚,弗莱彻和马洛作品的作者。它还包括一些python脚本(以及C中的神经网络实现)。还有一些数据文件可以让您了解如何撰写培训数据。

但如前所述,目前你的问题仍然过于宽泛。希望这个例子可以让你开始,所以你可以回来问更具体的问题。