stopwords_tr中的某些字符未显示土耳其语字符

时间:2019-07-12 14:02:40

标签: r replace gsub stop-words

stopwords_tr <- data.frame(word = stopwords::stopwords("tr",source="stopwords-iso"), stringsAsFactors = FALSE)
stopwords_tr

stopwords_tr中的某些字符不是土耳其语。例如;

1   acaba
2   acep
3   adamakıllı
4   adeta
5   ait
6   altmýþ   <-Here must be: altmış
7   altmış
8   altý     <-Here must be: altı

我正在寻找一种修复它们的方法。

stopwords_tr$word<-gsub("ý","ı",stopwords_tr$word)

结果未更改。 我尝试过这些,但是没有。

Encoding (stopwords_tr $ word) <- "WINDOWS-1254"
Encoding (stopwords_tr $ word) <- "LATIN-5"
Encoding (stopwords_tr $ word) <- "UTF-8"

另一个有趣的事情。

在R Studio中双击stopwords_tr以显示它时,字符将显示"ý"。在控制台中,它看起来像"y"

是否有一个参数可以设置编码? 谢谢大家。

2 个答案:

答案 0 :(得分:0)

如果您确定这是一个错误,我认为解决此问题的最佳方法是修复原始来源:将问题发布到https://github.com/stopwords-iso/stopwords-iso/issueshttps://github.com/stopwords-iso/stopwords-tr/issues(不确定哪个更好;试试吧,如果您弄错了,他们会告诉您!)

但是请检查它确实是错误的。我不懂土耳其语,但是当我在Google搜索“altmýþ”时,我在几个页面上找到了土耳其语,例如https://greatsong.net/PAROLES-ISMAIL-YK,ISTEMIYORUM-SENI,101646494.html。可能是编码错误,但如果是常见错误,也许您确实希望将其列入列表。

关于显示问题:听起来像您在Windows上。 Windows上的R在显示非本机字符时出现问题。您可能未安装冰岛语,因此在显示altmýþ之类的单词时会遇到麻烦。

答案 1 :(得分:0)

我遵循了#user2554330的建议。但是,我申请的地址与他所显示的地址不同。 我联系了stopwords-tr(Kenneth Benoit)的创建者。问题源于编码错误的数据源。我还注意到重复的单词并进行了报告。我们一起解决了性格问题。 stopwords-tr已更新。在以下地址;

(修复土耳其语#16)

https://github.com/quanteda/stopwords/pull/16

devtools::install_github("quanteda/stopwords", ref = "fix-tr")

stopwords("tr", source = "stopwords-iso")

“土耳其停用词”现在似乎已正确编码。 问候..