我正在编写一个应用程序来获取html页面的标题,body标签下的一些文本和图像。 这就像facebook的分享内容。我可以得到一个正则表达式。谢谢你的帮助。
答案 0 :(得分:6)
像<title>(.*?)</title>
这样的正则表达式可以为您提供标题内容。
。*? part用于以非贪婪的方式匹配任何字符(如果页面中有另一个标题结束标记)。
答案 1 :(得分:2)
您应该使用HTML Parser而不是Regular Expression。例如,请参阅Simple HTML DOM。
您的任务的正则表达式将非常难以维护,并且会在所讨论的页面的任何更改中轻松破解,更不用说您无法考虑HTML注释。
答案 2 :(得分:1)
我刚创造了这个表达式,它将文本放在标签内(节点值),而不是实际的标签本身。
(?<=\"\>)(.*?)(?=\<\/)
您可以在此处查看PHP的实际操作:http://codepad.viper-7.com/AUTcv3