我目前正在寻找一种简单的解决方案,可以为spacy添加自定义停用词。这些停用词应根据整个语料库中单词的绝对频率来确定。例如,在我的特定领域文本中,术语"患者"应该被认为是一个停用词,因为它发生在70%的所有文件中。
我的第一个想法是在pandas apply的帮助下实现它,但这需要编写我自己的标记化功能。是否有可能定制Spacy?
感谢您的任何建议
答案 0 :(得分:1)
To add custom stopwords into Spacy you can follow the solution given here: Add/remove stop words with spacy . Now in other to get a list recommended stopwords automatically, you can use NLTK package to calculate term frequency and document frequency (tf-idf), then define a trashold.
If you have any doubt, dont hesitate to comment.
Good luck!