Question

我对R很陌生，我正在尝试解决一些现实世界的挑战，同时参加datacamp.com R课程。问题是：我试图从网页上抓取地址，姓名，电话，电子邮件和网站。信息在桌子上。我试过这段代码：

library(rvest)
# Store web url
apel_url <- read_html("http://www.apel.pt/pageview.aspx?pageid=944&langid=1")
txt <- html_text(apel_url)
txt
associados <- apel_url %>% 
html_nodes(css = "p.MsoNormal") %>%
html_text() 
print(associados)

结果我有一个chr [1：1481]字符串，但是有些线条是相互拼接的，尽管在网站中它们是分开的线条。例如：

associados[969]

结果：

[1] "PENUMBRA EDITORA, LDA.Rua da Marinha, 50 - Madalena4405-761 VILA NOVA DE GAIA Tel.: 22 375 04 52"

我想知道我错过了什么，并且想知道在分隔列中的每个字段（电话，地址，电子邮件，URL等）的数据框中转换此字符串的最佳方法。有些入口有1个或多个电话号码，有些没有URL等，所以当没有信息时它必须是空白的。

感谢您的帮助。

从r中的html表中删除文本

0 个答案: