如何获得没有亵渎,特殊字符或冒犯性词汇的词汇表?

时间:2014-05-19 12:58:34

标签: passwords

我想向我的用户发送英文单词,作为我的应用程序的双因素身份验证代码。为了便于使用,我想排除包含任何特殊字符的单词,例如ï,å,ä等,同时我希望避免让用户输入可能被视为“jihad”或“vagina”等词语奇怪或冒犯。在这种情况下,随机生成的字符串不是一个选项,即使我知道这种解决方案的安全性好处。

我无法找到符合这些标准的任何策划词汇表,而且我无法手动通过20 000或更多单词来检测令人反感的词汇。我开始考虑使用类似城市列表的东西,但即使在那里,我也会很快遇到可用性问题。我该怎么做才最好呢?

1 个答案:

答案 0 :(得分:3)

我通过以纯文本下载儿童书并运行

解决了这个问题

cat childrens_book.txt | grep -o -w '\w\{5,9\}[a-z]' > words.txt用于填写长度为5到9个字母的单词。

然后我只是让每个单词都是独一无二的,它产生了一个18000字长的列表,我可以相当确定它不包含令人反感的语言。