我有几个应用程序通过应用像MD5这样的加密哈希来创建一个唯一的(具有高概率)人类可读的校验和或数字签名,然后使用带有算术编码器的结果位来从列表中选择单词。我一直在使用/usr/share/dict/words
,但最近一位客户(正确地)抱怨收到的文件的校验和包括令人反感的词或触发词。 (更多细节来自我对Generate User Friendly Codes的回答)。
对于这个应用程序,长列表很重要,因为它们避免重复 - 我使用的列表有数万个单词。
有没有人知道如何从这样的清单中删除攻击性和触发词,或者在哪里找到无害词的列表?
答案 0 :(得分:2)
一种可能性是ENABLE单词列表,由Words with Friends和其他一些游戏使用。他们试图避免有争议的话(选择你最喜欢的,你不会在那里找到它们! - )它属于公共领域,所以你可以在这里和那里找到它。它大约172,000字。这是我发现的一个地方:http://www.greenworm.net/sites/default/files/gw-assets/enable1-wwf-v4.0-wordlist.txt
此外,Scrabble有不同的名单 - 拥有该游戏的公司有“过滤”名单,而俱乐部则使用未经过滤的名单进行竞争。我不想发布令人反感的材料的链接,但如果你谷歌“西雅图拼字游戏俱乐部被删除的话”,你可能会找到从顽皮名单中删除的单词列表,以产生好的列表。如果您在该列表中找到所有关于投诉的词语,则可以将其用作过滤器。