正则表达式从大量HTML字符串中获取数据

时间:2018-04-20 11:10:48

标签: regex web-scraping

我正在抓取一个HTML源转储,其中包含由react创建的某种JSON道具。

尝试使用以下语法抓取数据:"siteName":"Example Site"。我想抓住那个"示例网站"没有引文的文字。

我知道我可以使用HTML解析器,但这实际上是在源代码中的某些JS代码中。

有关如何做到这一点的任何想法?感谢

2 个答案:

答案 0 :(得分:1)

使用这个正则表达式你得到它但我会使用像Json解析器

之类的东西



var regex = /"siteName":"(.+?)"/g;
var str = `{"siteName":"ABC Example Business","contactName":"Jeff","siteKey":"abcexample","tabKey":"service","entityKey":"1192289","siteId":152285976,"entityId":13123055221,"phone":"","mobile":"0100 000 000",}`;

var result = regex.exec(str);
console.log(result[1]);




答案 1 :(得分:0)

怎么样:

\ “网站名\”:\ “(+)\”