从R

时间:2017-03-30 15:24:16

标签: r web-scraping

以下是网址:

https://www.bls.gov/lau/laucnty15.txt

不幸的是,我认为问题是该表是制表符分隔的,但值不是用引号(“”)分隔的。因此,我不知道如何在不拆分县名的情况下使用空格去除值,例如。

我试过了:

webData <- data.frame(read.table(usrWebsiteURL,sep="\t",skip=5,header=F))

webData <- data.frame(readLines(usrWebsiteURL)),sep="\t",skip=5,header=F)

这两种方法都会创建一个大的1列data.frame。

为什么sep="\t"无效?更糟糕的情况是,我可以接受拆分县名并稍后将其重新组合在一起,但我甚至无法将表格中的单词分开。

1 个答案:

答案 0 :(得分:1)

此代码使用readr(来自CRAN)包为我工作:

    readr::read_table("https://www.bls.gov/lau/laucnty15.txt", skip = 6, col_names = FALSE)

您可能希望在读取文件后添加列名,但这可以手动完成,例如,使用

    dat <- readr::read_table("https://www.bls.gov/lau/laucnty15.txt", skip = 6, col_names = FALSE)
    colnames(dat) <- c("LAUS Code", "State FIPS Code", "County FIPS Code", "County name", "Year", "Labor Force", "Employed", "Unemployed Level", "Unemployed Rate")