R和网页文本的readLines

时间:2014-11-26 19:11:31

标签: r readlines

我想从以下网站创建单个数据框:http://www.arrs.net/MaraList/ML_2014.htm

不幸的是,我不确定如何采用看似制表符分隔符并创建数据列。我下面的代码采用并创建了多个字符串,但是我无法确定如何将具有多个单词的名称分隔为单个列,如网站上所示。

library(XML)
url<-"http://www.arrs.net/MaraList/ML_2014.htm"
data<-readLines(url)
data<-sub("</FONT></b><FONT SIZE=\"2\" <FONT COLOR=\"#00000\" FACE=\"Courier New,           Courier\">","",data)
data<-sub("<B><FONT COLOR=\"#0066FF\" FACE=\"Arial\">","",data)
data<-read.table(textConnection(data),stringsAsFactors=FALSE)
data<-data[11:40000,1]

所以,不确定我现有的任何代码都可以让我在那里。任何先前帖子的信息或链接都将受到赞赏。

1 个答案:

答案 0 :(得分:1)

这是一种读取此方法的方法(使用我维护的两个软件包和极好的stacksplitshape软件包)。您需要qdapTools的开发版本。

devtools::install_github("trinker/qdapTools")
library(qdapTools); library(qdapRegex); library(splitstackshape)
url<-"http://www.arrs.net/MaraList/ML_2014.htm"

m <- readLines(url)[-c(1:7, 2760:2767)]

## Split into lists by country    
x <- loc_split(m, unique(grep("<B><FONT", m)))

## Clean up country names
nms <- rm_angle(sapply(x, `[`, 1))

## remove html country name from data can convert to a data.frame
dat <- list2df(setNames(lapply(x, `[`, -1), nms), "dats", "Country")[, 2:1]

## Use hand parsing technique to locate widths      
## I added a # before each column in row one of data
## gregexpr tells us the location of the # characters
det <- "AAR  #26#Jan #King George Island           #      #27+25   #White Continent                        #4:03:30    #Steve Hibbs (USA)              #4:13:02    #Suzy Seeley (54,TX/USA) "
widths <- gregexpr("#", det)[[1]]

## replace those widths with # character as it is not any where else in data set
for (i in widths){
    substring(dat[["dats"]], i, i) <-  "#" 
}

## split columns on # character
out <- cSplit(dat, 2, sep="#")

out