Question

我有一个由数字和非数字列组成的数据框。

我想提取（子集）非数字列，所以字符为1。虽然我能够使用字符串sub_num = x[sapply(x, is.numeric)]对数字列进行子集化，但我无法使用is.character表单执行相反的操作。任何人都可以帮助我吗？

Answer 1

好的，我对我的想法做了一个简短的尝试。

我可以确认以下代码段正在运行：

str(d)
 'data.frame':  5 obs. of  3 variables:
  $ a: int  1 2 3 4 5
  $ b: chr  "a" "a" "a" "a" ...
  $ c: Factor w/ 1 level "b": 1 1 1 1 1


# Get all character columns
d[, sapply(d, class) == 'character']

# Or, for factors, which might be likely:
d[, sapply(d, class) == 'factor']

# If you want to get both factors and characters use
d[, sapply(d, class) %in% c('character', 'factor')]

使用正确的类，您的sapply - 方法也应该有效，至少只要您在,函数之前插入缺少的sapply即可。

使用!is.numeric的方法如果您的类不属于组numeric, factor, character（我经常使用的是POSIXct，那么）不能很好地扩展。

Answer 2

如果尝试仅选择字符列，则可以使用dplyr::select_if()和is.character()完成。以dplyr::starwars示例数据为例：

library(dplyr)
starwars %>% 
  select_if(is.character) %>% 
  head(2)
# A tibble: 2 x 7
  name           hair_color skin_color eye_color gender homeworld species
  <chr>          <chr>      <chr>      <chr>     <chr>  <chr>     <chr>  
1 Luke Skywalker blond      fair       blue      male   Tatooine  Human  
2 C-3PO          NA         gold       yellow    NA     Tatooine  Droid

或者，如果您想否定某种列类型，请注意语法略有不同：

starwars %>%  
  select_if(~!is.numeric(.)) %>% 
  head(2)

# A tibble: 2 x 10
    name           hair_color skin_color eye_color gender homeworld species films     vehicles  starships
    <chr>          <chr>      <chr>      <chr>     <chr>  <chr>     <chr>   <list>    <list>    <list>   
  1 Luke Skywalker blond      fair       blue      male   Tatooine  Human   <chr [5]> <chr [2]> <chr [2]>
  2 C-3PO          NA         gold       yellow    NA     Tatooine  Droid   <chr [6]> <chr [0]> <chr [0]>

Answer 3

尝试：

x[sapply(x, function(x) !is.numeric(x))]

因为它会拉出任何不是数字的因素和因素。

修改

x <- data.frame(a=runif(10), b=1:10, c=letters[1:10], d=as.factor(rep(c("A", "B"), each=5)), e=as.Date(seq(as.Date("2000/1/1"), by="month", length.out=10)), stringsAsFactors = FALSE) # > str(x) # 'data.frame': 10 obs. of 5 variables: # $ a: num 0.814 0.372 0.732 0.522 0.626 ... # $ b: int 1 2 3 4 5 6 7 8 9 10 # $ c: chr "a" "b" "c" "d" ... # $ d: Factor w/ 2 levels "A","B": 1 1 1 1 1 2 2 2 2 2 # $ e: Date, format: "2000-01-01" "2000-02-01" ... x[sapply(x, function(x) !is.numeric(x))]

Answer 4

其他先前的答案并不清楚。所以我发布了这种方法。要获取字符列的名称，您可以执行以下操作：

chrs <- sapply(df_data, is.character)
chrCols <- names(df_data[, chrs])

Answer 5

使用@ Tyler示例

x <- data.frame(a=runif(10), b=1:10, c=letters[1:10], 
    d=as.factor(rep(c("A", "B"), each=5)), 
    e=as.Date(seq(as.Date("2000/1/1"), by="month", length.out=10)),
    stringsAsFactors = FALSE)

In Base R

base::Filter(Negate(is.numeric),x)



   c d          e
1  a A 2000-01-01
2  b A 2000-02-01
3  c A 2000-03-01
4  d A 2000-04-01
5  e A 2000-05-01
6  f B 2000-06-01
7  g B 2000-07-01
8  h B 2000-08-01
9  i B 2000-09-01
10 j B 2000-10-01

来自字符和数字的数据框的子集字符列

5 个答案: