我有很多包含公司和个人姓名的文字文件。我已经对齐了文本文档,其中上面的内容已被手动匿名化(名称替换为一个唯一的字符)。
我想使用这个语料库训练一个系统对看不见的文件进行自动匿名化 - 这只是用一个字符替换单词。主要问题是识别要匿名的单词,次要问题是用独特字符替换单词。我可以做第二个问题。
Python是首选,我认为sklearn必须包含必要的工具。
我该怎么做?关于监督学习的stackoverflow有很多文章,但我不确定它们是否符合我的情况。我怀疑这是一个相当简单的问题需要解决,而且我不一定在寻找一个完整的解决方案,但是一些起始指针会很好。此外,对于哪种算法更好地运作的任何见解都非常感激。