关于给定参数的格式的问题

时间:2012-04-01 03:14:38

标签: r

我正在尝试使用textcat包进行n-gram分析,它具有以下功能:

textcat(x, p = TC_char_profiles, method = "CT", ..., options = list())

功能规格表明

  

参数x可以是文本的字符向量,也可以是使用as.character强制转换为此对象的R对象。

我不知道“使用as.character可以强制使用的R对象”是什么意思?换句话说,根据以上描述,我不太明白该x的正确输入格式应该是什么。假设我有100个文件。如何将这些文件转换为x的格式?

1 个答案:

答案 0 :(得分:1)

这里你真的有两个问题。

(1)。 “使用as.character可以强制使用的R对象”是什么意思?

这意味着可以传入其他类的R对象,而不是只有character的对象。一个例子是一个因子,其中as.character(x)将删除所提供的额外功能并恢复为简单的字符向量。

as.character(1:2)##将给出一个向量c(“1”,“2”)

这扩展了其他派生类,它是一个标准的R语言,为as.character等公共函数提供了一种方法,用于定义从任何给定类到字符的强制。

(2)。我的数据必须采用何种格式输入textcat

简而言之,它必须是一个字符向量或可以强制转换为的东西。你问的是文档,所以大概你有文本文件。函数readLines将提供文本文件中的字符向量,向量与文件中的行数一样长。对于这个问题,还需要更多关于分析应该做什么的详细信息,是否需要将其分解为文件中的文本行?断言?将不同文件中的行/单词集保存为单独的集合?等等。

在使用readLines中的示例的简单术语中,您可以执行类似的操作,但进一步的详细信息需要更多有关您问题的信息:

 cat("TITLE extra line", "2 3 5 7", "", "11 13 17", file="ex.data",
     sep="\n")
 readLines("ex.data", n=-1)
 x <-      readLines("ex.data", n=-1)

 require(textcat)  
 textcat(x)