标签: machine-learning nlp text-processing
我正在寻找一些最佳实践来清理荷兰语文本。 到目前为止,我所做的是: 1.使用正则表达式删除所有特殊字符,数字等。 2.用于词的词素化的Spacy _ NL模型 3. NLTK荷兰语停用词 4.收集形容词来表达情感。
特征向量-计数向量
但是文本没有得到预期的清洗。没有正面和负面的分界线。
我正在寻找一些指导或解决方案来解决荷兰语中的NLP问题。