应用错误收集

我有很多包含公司和个人姓名的文字文件。我已经对齐了文本文档，其中上面的内容已被手动匿名化（名称替换为一个唯一的字符）。

我想使用这个语料库训练一个系统对看不见的文件进行自动匿名化 - 这只是用一个字符替换单词。主要问题是识别要匿名的单词，次要问题是用独特字符替换单词。我可以做第二个问题。

Python是首选，我认为sklearn必须包含必要的工具。

我该怎么做？关于监督学习的stackoverflow有很多文章，但我不确定它们是否符合我的情况。我怀疑这是一个相当简单的问题需要解决，而且我不一定在寻找一个完整的解决方案，但是一些起始指针会很好。此外，对于哪种算法更好地运作的任何见解都非常感激。