有人知道NLP词典或词典可用于筛选专业文档中不需要的单词吗?例如侮辱性或歧视性的字眼,或色情用语?任何提示,不胜感激。
答案 0 :(得分:0)
我不知道一般的语料,但是您可以对特定单词进行情感分析,只是说“我不愿意使用比否定阈值更差的否定单词是我不想要的单词”
答案 1 :(得分:0)
快速搜索会发现一些可能对您有用的资源:
https://www.cs.cmu.edu/~biglou/resources/
https://pypi.org/project/profanity/(如果您使用Python编码)
https://www.noswearing.com/dictionary(自己构建)
您可能还希望包括一些正则表达式(例如.*fuck.*
,.*shit.*
),以解决生产力和创建那些词典中可能没有的新单词的问题。但是要小心,因为您可能要避免将其他单词标记为亵渎。