将文本保存在rvest中的HTML中

时间:2016-06-28 16:52:21

标签: r web-scraping rvest

我想知道如何只保留<>之间的文字在对特定属性和网站URL运行rvest之后。这是我在输出上得到的字符集

{xml_nodeset (11)}
 [1] <td id="open">1.1041</td>
 [2] <td id="open">1.1043</td>
 [3] <td id="open">1.1049</td>
 [4] <td id="open">1.1043</td>
 [5] <td class="right" id="open">47.617</td>
 [6] <td class="left" id="open">MA</td>

理想情况下,我想隔离包含的文本并获取此

[1] 1.1041
[2] 1.1043
[3] 1.1049
[4] 1.1043
[5] 47.617
[6] MA

但是到目前为止,通过使用html_text函数,我得到了一个连接的字符串,其中值之间的“”不是我想要的

[1] "1.1041" "1.1043" "1.1049" "1.1043" "47.617" "MA"  

1 个答案:

答案 0 :(得分:1)

由于最后一个值MA,所有内容都被强制转换为字符串格式。这就是为什么你得到这些数字的报价。

您可以将所有内容转换为数字,但最后一个值将被强制转换为NA

q <- c("1.1041", "1.1043", "1.1049", "1.1043", "47.617", "MA")
as.numeric(q)

# The output of the previous command is:
[1]  1.1041  1.1043  1.1049  1.1043 47.6170      NA
Warning message:
NAs introduced by coercion 

因此,您必须决定数据的格式。