我对R很陌生,我正在尝试解决一些现实世界的挑战,同时参加datacamp.com R课程。问题是:我试图从网页上抓取地址,姓名,电话,电子邮件和网站。信息在桌子上。我试过这段代码:
library(rvest)
# Store web url
apel_url <- read_html("http://www.apel.pt/pageview.aspx?pageid=944&langid=1")
txt <- html_text(apel_url)
txt
associados <- apel_url %>%
html_nodes(css = "p.MsoNormal") %>%
html_text()
print(associados)
结果我有一个chr [1:1481]字符串,但是有些线条是相互拼接的,尽管在网站中它们是分开的线条。例如:
associados[969]
结果:
[1] "PENUMBRA EDITORA, LDA.Rua da Marinha, 50 - Madalena4405-761 VILA NOVA DE GAIA Tel.: 22 375 04 52"
我想知道我错过了什么,并且想知道在分隔列中的每个字段(电话,地址,电子邮件,URL等)的数据框中转换此字符串的最佳方法。有些入口有1个或多个电话号码,有些没有URL等,所以当没有信息时它必须是空白的。
感谢您的帮助。