正如标题所述,我有一个包含英语或西班牙语字符串的数据集。在预处理之前,我想删除包含西班牙语单词的任何行。
我是否应该在整个数据集中使用西班牙语语料库循环来查看句子中是否存在任何西班牙语单词?
非常感谢任何帮助。
答案 0 :(得分:2)
我认为您要使用的库是langdetect。这里有一些示例代码我刚刚掀起+输出。
from langdetect import detect
sentences = ["hello, how are you",
"Hola cómo estás",
"I've had a great day"]
for sentence in sentences:
print(detect(sentence)) # outputs 'en', 'es', 'en'
希望这有帮助,很乐意回答任何后续问题