我正在尝试使用PHP中的DOMDocument抓取网页并从中提取文本。不幸的是,HTML难以使用。例如,它看起来像这样:
<p class="thisClass">
<a href="/a/link">Link</a>
<br>
The text I need: 0613
<br>
</p>
我不知道如何拉出“我需要的文字:0613”,因为它没有包含在自己的标签中。正则表达式是最好的解决方法吗?我知道该行的格式将始终是“我需要的文字:”后跟一个四位数字。
答案 0 :(得分:2)
I know that the format of the line will always be "The text I need: " followed by a four digit number.
在这种情况下,您可以使用:
preg_match('/The text I need:\s*(\d+)/i', $str, $matches);
您需要的号码将在$matches[1]
中提供。
PS:但是,为了可靠地解析HTML页面,请使用DOM解析器。