文本的正则表达式模式组合在两个标签中

时间:2017-02-21 11:52:14

标签: html regex web-scraping

我需要正则表达式或提取此信息的方法:

  

“Per chi ha poche pretese 18 dicembre 2014”

来自此HTML字符串:

  

< b> Per chi ha poche pretese< / b&gt ;,< nobr> 18 dicembre   2014< / NOBR>

我需要在抓取模式的整个HTML页面时这样做 可以在内容中重复2-3次......

REGEX可以吗?

由于 达里奥

1 个答案:

答案 0 :(得分:2)

这对您有用:<b>(.*?)<\/b>, <nobr>(.*?)<\/nobr>

您可以对其进行测试over here

匹配将是:

  • 第一个索引将是b
  • 中的字符串
  • 第二个索引是来自nobr
  • 的字符串

只需循环结果并连接完整句子的索引1 + 2.

P.S:当然你也应该添加global标志