我正在尝试使用textcat包进行n-gram分析,它具有以下功能:
textcat(x, p = TC_char_profiles, method = "CT", ..., options = list())
功能规格表明
参数x可以是文本的字符向量,也可以是使用as.character强制转换为此对象的R对象。
我不知道“使用as.character可以强制使用的R对象”是什么意思?换句话说,根据以上描述,我不太明白该x的正确输入格式应该是什么。假设我有100个文件。如何将这些文件转换为x的格式?
答案 0 :(得分:1)
这里你真的有两个问题。
(1)。 “使用as.character可以强制使用的R对象”是什么意思?
这意味着可以传入其他类的R对象,而不是只有character
的对象。一个例子是一个因子,其中as.character(x)
将删除所提供的额外功能并恢复为简单的字符向量。
as.character(1:2)##将给出一个向量c(“1”,“2”)
这扩展了其他派生类,它是一个标准的R语言,为as.character
等公共函数提供了一种方法,用于定义从任何给定类到字符的强制。
(2)。我的数据必须采用何种格式输入textcat
?
简而言之,它必须是一个字符向量或可以强制转换为的东西。你问的是文档,所以大概你有文本文件。函数readLines
将提供文本文件中的字符向量,向量与文件中的行数一样长。对于这个问题,还需要更多关于分析应该做什么的详细信息,是否需要将其分解为文件中的文本行?断言?将不同文件中的行/单词集保存为单独的集合?等等。
在使用readLines
中的示例的简单术语中,您可以执行类似的操作,但进一步的详细信息需要更多有关您问题的信息:
cat("TITLE extra line", "2 3 5 7", "", "11 13 17", file="ex.data",
sep="\n")
readLines("ex.data", n=-1)
x <- readLines("ex.data", n=-1)
require(textcat)
textcat(x)