可以使用html_table保留内联html标签,例如<br/>吗?

时间:2015-06-18 17:09:50

标签: html r rvest

我正试图在R中写一个表格,我以html格式给出了。 Rvest在将所有文本排除在表格之外非常有用,但我希望保持HTML格式的内联样式。

例如,表格中的文字可能是

"This is a sentence <BR> this is another sentence"

我想保留BR

我试着在整张桌子上阅读:

my_table <- my_table_html %>% 
html_nodes("table") %>% 
html_table(fill=TRUE) 

我还尝试在表格中选择特定列:

my_column <- my_table_html %>% 
html_nodes(".Tabletitle:nth-child(2)") %>%
html_text()

非常感谢任何想法

1 个答案:

答案 0 :(得分:2)

library(rvest)

pg <- read_html("This is a sentence <BR> this is another sentence")

xml_find_all(pg, ".//br") %>% xml_add_sibling("p", "\n")

xml_find_all(pg, ".//br") %>% xml_remove()

html_text(pg)
## [1] "This is a sentence \n this is another sentence"