Question

我试图从具有div类的网站中提取完整的描述：

此div类会更改为同一列中的数据。我正在使用以下r代码用于其他不改变的div类：

#get the beer IBU
num_ibu <- html_nodes(webpage, ".ibu")
num_ibu <- as.character(html_text(num_ibu))

我的问题是如何修改此代码以找到像＆＃39; .desc-full＆＃39;这样的div类？我已尝试full_desc <- html_nodes(webpage, ".desc-full*")仅收到以下错误：

Error in parse_simple_selector(stream) : Expected selector, got <DELIM '*' at 11>

我似乎很难找到适用于like的{{1}}命令。这是我应该使用正则表达式的情况吗？这感觉有点矫枉过正。

Answer 1

webpage <- "https://untappd.com/beer/top_rated?country_id=86"

sess <- html_session(webpage)
all_desc_nodes <- html_nodes(sess, ".desc")
full_desc_nodes <- all_desc[grep("desc-full", all_desc_nodes)]
full_desc_text <- html_text(full_desc_nodes)

当div类对于相同属性

1 个答案: