从r中的html表中删除文本

时间:2017-07-10 01:01:35

标签: r web-scraping

我对R很陌生,我正在尝试解决一些现实世界的挑战,同时参加datacamp.com R课程。问题是:我试图从网页上抓取地址,姓名,电话,电子邮件和网站。信息在桌子上。我试过这段代码:

library(rvest)
# Store web url
apel_url <- read_html("http://www.apel.pt/pageview.aspx?pageid=944&langid=1")
txt <- html_text(apel_url)
txt
associados <- apel_url %>% 
html_nodes(css = "p.MsoNormal") %>%
html_text() 
print(associados)

结果我有一个chr [1:1481]字符串,但是有些线条是相互拼接的,尽管在网站中它们是分开的线条。例如:

associados[969]

结果:

[1] "PENUMBRA EDITORA, LDA.Rua da Marinha, 50 - Madalena4405-761 VILA NOVA DE GAIA Tel.: 22 375 04 52"

我想知道我错过了什么,并且想知道在分隔列中的每个字段(电话,地址,电子邮件,URL等)的数据框中转换此字符串的最佳方法。有些入口有1个或多个电话号码,有些没有URL等,所以当没有信息时它必须是空白的。

感谢您的帮助。

0 个答案:

没有答案