Question

我正在尝试使用koRpus进行丰富的可读性测量，但是我无法正确使用德语变音符号。

library(koRpus)
txt1 <- treetag("data/txt1.txt", treetagger="manual", lang="de", 
    TT.options=list(path="C:/TreeTagger", preset="de-utf8"))
slot(txt1, "TT.res")

有效，但变音符号很有趣＆＃34;：

              token   tag          lemma lttr      wclass
1          SchÃ¼ler    NN       SchÃ¼ler    8        noun
2           mussten VMFIN        mÃ¼ssen    7        verb
3         auÃŸerdem   ADV      auÃŸerdem    9      adverb
...

该文件是UTF-8;使用相同的输入文件，tm-package工作得很好（但我知道tm和koRpus之间没有转换......）：

library(tm)
txt2 <- VCorpus(DirSource("C:/mini/data/", encoding="UTF-8"), 
    readerControl=list(language="ger"))
inspect(txt2)

<<PlainTextDocument (metadata: 7)>>
Schüler mussten außerdem bloggen und sich mit Margaret Thatcher und Höhlenmalereien beschäftigen

我将非常感谢您的建议！

Answer 1

我遇到了类似的问题，并通过将矢量重新编码为UTF-8来解决它，即使它已经是UTF-8

Encoding(txt1) <- "UTF-8"

不知道这是否有帮助...

带有德语文本的koRpus：编码问题

1 个答案: