使用有监督的机器学习进行文本匿名化

时间:2014-08-03 08:17:55

标签: python machine-learning scikit-learn supervised-learning anonymize

我有很多包含公司和个人姓名的文字文件。我已经对齐了文本文档,其中上面的内容已被手动匿名化(名称替换为一个唯一的字符)。

我想使用这个语料库训练一个系统对看不见的文件进行自动匿名化 - 这只是用一个字符替换单词。主要问题是识别要匿名的单词,次要问题是用独特字符替换单词。我可以做第二个问题。

Python是首选,我认为sklearn必须包含必要的工具。

我该怎么做?关于监督学习的stackoverflow有很多文章,但我不确定它们是否符合我的情况。我怀疑这是一个相当简单的问题需要解决,而且我不一定在寻找一个完整的解决方案,但是一些起始指针会很好。此外,对于哪种算法更好地运作的任何见解都非常感激。

0 个答案:

没有答案