Question

我正在尝试使用textcat包进行n-gram分析，它具有以下功能：

textcat(x, p = TC_char_profiles, method = "CT", ..., options = list())

功能规格表明

参数x可以是文本的字符向量，也可以是使用as.character强制转换为此对象的R对象。

我不知道“使用as.character可以强制使用的R对象”是什么意思？换句话说，根据以上描述，我不太明白该x的正确输入格式应该是什么。假设我有100个文件。如何将这些文件转换为x的格式？

Answer 1

这里你真的有两个问题。

（1）。 “使用as.character可以强制使用的R对象”是什么意思？

这意味着可以传入其他类的R对象，而不是只有character的对象。一个例子是一个因子，其中as.character(x)将删除所提供的额外功能并恢复为简单的字符向量。

as.character（1：2）##将给出一个向量c（“1”，“2”）

这扩展了其他派生类，它是一个标准的R语言，为as.character等公共函数提供了一种方法，用于定义从任何给定类到字符的强制。

（2）。我的数据必须采用何种格式输入textcat？

简而言之，它必须是一个字符向量或可以强制转换为的东西。你问的是文档，所以大概你有文本文件。函数readLines将提供文本文件中的字符向量，向量与文件中的行数一样长。对于这个问题，还需要更多关于分析应该做什么的详细信息，是否需要将其分解为文件中的文本行？断言？将不同文件中的行/单词集保存为单独的集合？等等。

在使用readLines中的示例的简单术语中，您可以执行类似的操作，但进一步的详细信息需要更多有关您问题的信息：

 cat("TITLE extra line", "2 3 5 7", "", "11 13 17", file="ex.data",
     sep="\n")
 readLines("ex.data", n=-1)
 x <-      readLines("ex.data", n=-1)

 require(textcat)  
 textcat(x)

关于给定参数的格式的问题

1 个答案: