在R中提取字符串的一部分

时间:2017-03-06 19:04:53

标签: r string

我需要从Twitter输出中提取字符串的一部分。我正在做的摘录是这段代码:

some_tweets = searchTwitter('weather', n=4, lang='en')
st <- twListToDF(some_tweets)
st[,"statusSource"]

输出类似于:

[1] "<a href=\"http://twitter.com/download/iphone\" rel=\"nofollow\">Twitter for iPhone</a>"  
[2] "<a href=\"http://www.facebook.com/twitter\" rel=\"nofollow\">Facebook</a>"               
[3] "<a href=\"http://instagram.com\" rel=\"nofollow\">Instagram</a>"                         
[4] "<a href=\"http://www.hootsuite.com\" rel=\"nofollow\">Hootsuite</a>"  

我想要提取的是最后一部分,如:

Twitter for iPhone
Facebook
Instagram
Hootsuite

我想要做的是计算每种连接类型的条目数。

关于我如何提取字符串的任何想法我需要计算它们?

1 个答案:

答案 0 :(得分:2)

这是使用rvest包的一种方式。

x <- c("<a href=\"http://twitter.com/download/iphone\" rel=\"nofollow\">Twitter for iPhone</a>",
       "<a href=\"http://www.facebook.com/twitter\" rel=\"nofollow\">Facebook</a>",
       "<a href=\"http://instagram.com\" rel=\"nofollow\">Instagram</a>",
       "<a href=\"http://www.hootsuite.com\" rel=\"nofollow\">Hootsuite</a>")


library(rvest)

unname(sapply(x, FUN = function(m) html_text(html_nodes(read_html(m), "a"))))
[1] "Twitter for iPhone" "Facebook"           "Instagram"          "Hootsuite"