从网络源htm提取价格的模式

时间:2015-05-19 17:57:24

标签: r pattern-matching

我获得了html页面的巨大源代码串。如何从下面提取23,995作为字符串?

.....ml">&pound;23,995</a>.....

我试过像:

 "(^([:&:])pound[:;:][0-9][0-9],[0-9][0-9][0-9])"

但不起作用。价格总是5位数。

2 个答案:

答案 0 :(得分:0)

library(stringr)
str_match(text, ";(.*)<")[2]
[1] "23,995"

但你真的应该使用像'XML'这样的包来完成这项工作。

答案 1 :(得分:0)

试试这个:

library(stringr)
str_match(text, "&pound;(\\d{2},\\d{3})<")[2]