Question

我从三个数据表导入了大约70个人类主题的数据，并将它们合并到R中的一个数据框中.100个字段中的一些是直接的，例如date.birth，number.surgeries.lifetime和number。 surgeries.12months。其他字段，例如“评论”可能不包含任何值，也可能包含一个句子或甚至几个句子。

有些人类受试者有异常，这意味着某些东西缺失或不正确，对于那些我必须手动调查最新情况的人。当我将数据框作为数据框打开或甚至作为fix（）中的表打开时，很难阅读。我必须从左向右滚动，然后我必须将一些列扩展到一个荒谬的数量，只读一条评论。

如果我可以将我需要探索的5名患者分组并将数据报告为自由流动的文本，那会好得多。我以为我可以通过导出到csv来做到这一点，但很难看出哪些字段是什么。例如2001-01-05,12,4，在洛杉矶居住时进行了测试。这很简单，想象如果有100个字段会发生什么，很多是数字，很多是日期，有几个不同的评论字段。

更好的方法是输出如下报告：
date.birth：2001-01-05，number.surgeries.lifetime：12，number.surgeries.12months：4，评论：将于周一与我们交谈 5个记录中的每一个都将遵循该格式字段名称1：字段1值记录1，字段名称2：字段2值记录1 ...
跳过一条线（或容易看到的东西）
字段名称1：字段1值记录2，字段名称2：字段2值记录2

我该怎么做？

Answer 1

这个怎么样？

set.seed(1)
age <- abs(rnorm(10, 40, 20)) 
patient.key <- 101:110
date.birth <- as.Date("2011-02-02") - age * 365
number.surgeries.12months <- rnbinom(10, 1, .5)
number.surgeries.lifetime <- trunc(number.surgeries.12months * (1 + age/10))
comments <- "comments text here"
data <- data.frame(patient.key, 
                   date.birth, 
                   number.surgeries.12months, 
                   number.surgeries.lifetime, 
                   comments)

根据您感兴趣的患者和领域对数据进行子集：

selected.patients <- c(105, 109)
selected.fields <- c("patient.key", "number.surgeries.lifetime", "comments")
subdata <- subset(data[ , selected.fields], patient.key %in% selected.patients)

格式化打印结果。

# paste the column name next to each data field
taggeddata <- apply(subdata, 1, 
                    function(row) paste(colnames(data), row, sep = ":"))
# paste all the data fields into one line of text
textdata <- apply(taggeddata, 2, 
                  function(rec) do.call("paste", as.list(rec)))
# write to a file or to screen
writeLines(textdata)

Answer 2

虽然我冒险重复自己，但我还会为RMySQL包做另一个案例。您将能够使用您喜欢的SQL客户端编辑数据库（我建议SequelPro）。使用SELECT语句/过滤然后编辑它。例如

SELECT patentid, patentname, inability FROM patients LIMIT 5

只能显示您需要的字段。使用一个不错的SQL客户端，您可以直接编辑结果并将结果存储到数据库中。之后，您可以将数据库重新加载到R.我知道很多人会认为您的数据集太小而无法承受这样的开销，但我仍然更喜欢R的大多数SQL编辑器的编辑属性。同样适用于如果变得棘手，就加入表格。另外，您可能会对编写视图（访问时更新的“表格”）感兴趣，这些视图将被视为R中的表格。

Answer 3

查看库（重塑）。我想如果你从熔化（）开始 - 你的数据，你的脚将走上你期望的结果的道路。如果看起来它会有所帮助以及它是如何发生的，请告诉我们。

将短宽数据框转换为长叙事自由文本报告

3 个答案: