python - 建议“作者识别”的步骤？

作者身份识别任务的方法很多。既然你似乎是NLP的新手，我建议从一个基本的，词袋矢量方法开始：

提出一系列将作为功能的单词。
获取每个文档并将其转换为每个特征词的计数向量。
通过余弦相似性对矢量进行聚类。
最终位于同一群集中的文档可能由同一作者撰写。

现在有一个重要的问题是，作者身份识别的聚类与普通文档聚类不同：在正常的文档聚类中，我们试图忽略“停用词”，高频词如“the”，“be”，“that”，等等，只关注“内容词”。但在作者身份识别中，事实证明，那些禁忌词是使个人写作独特的东西！因此，矢量实际上应该根据作者在写作中使用这些功能词的方式进行聚类。

下一步，尝试使用更好的功能，例如单词双字母，因为这些可以更好地洞察作者写作风格的独特方面。

有关该地区和人们尝试过的技术的广泛视图，请查看Google scholar要说的内容。您可能应该查找调查文章或其他提供该领域概述的论文，以便您可以很好地了解人们尝试过什么以及取得了哪些成功。

你可以使用神经网络。例如，有一篇文章here试图找出莎士比亚，弗莱彻和马洛作品的作者。它还包括一些python脚本（以及C中的神经网络实现）。还有一些数据文件可以让您了解如何撰写培训数据。

但如前所述，目前你的问题仍然过于宽泛。希望这个例子可以让你开始，所以你可以回来问更具体的问题。

建议“作者识别”的步骤？

2 个答案: