我正试图从this website删除文字。我可以用这个来获得所有说话人物的名字:
#text
但我无法弄清楚如何拉出角色所说的内容。当我检查它时,它看起来像{{1}}中的引号,但我无法让它工作。任何帮助将不胜感激!
答案 0 :(得分:0)
你需要使用这样的东西(它不完整,但得到了人物所说的):
webpage %>%
html_nodes(xpath="//body//b/following-sibling::text()[1]") %>%
xml_text(trim=T)
答案 1 :(得分:0)
所以看看我看到了两个选项。一个是如果你使用" blockquote"它将所有文本拉下来。也许一些格式化将实现您的目标。
webpage %>%
html_nodes("blockquote") %>%
html_text()
另一种选择是使用" i"这样可以将文字拉得更清洁;但它并没有抓住所有的文字回复。
webpage %>%
html_nodes("i") %>%
html_text()