rvest - 在特定标签后获取#text?

时间:2018-01-02 15:55:04

标签: html r rvest

我正试图从this website删除文字。我可以用这个来获得所有说话人物的名字:

#text

但我无法弄清楚如何拉出角色所说的内容。当我检查它时,它看起来像{{1}}中的引号,但我无法让它工作。任何帮助将不胜感激!

2 个答案:

答案 0 :(得分:0)

你需要使用这样的东西(它不完整,但得到了人物所说的):

webpage %>% 
html_nodes(xpath="//body//b/following-sibling::text()[1]") %>% 
xml_text(trim=T) 

答案 1 :(得分:0)

所以看看我看到了两个选项。一个是如果你使用" blockquote"它将所有文本拉下来。也许一些格式化将实现您的目标。

webpage %>% 
html_nodes("blockquote") %>%
html_text()

另一种选择是使用" i"这样可以将文字拉得更清洁;但它并没有抓住所有的文字回复。

webpage %>% 
html_nodes("i") %>%
html_text()