RegEx for <title> with leading,trailing,linebreak </title>

时间:2012-05-06 07:23:30

标签: html regex

大多数网站我可以使用RegEx“(。)”或“\ s (。+?)\ s *”轻松解析其标题。但是有些网站的格式有点不同,例如http://www.youtube.com(见下文)。上面的表达式不起作用。是否有任何帮助捕获这种格式和任何其他HTML格式?

由于 -Tim。

<title>
  YouTube - Broadcast Yourself.

2 个答案:

答案 0 :(得分:2)

有多种方法可以完成这项工作。仅限标题,SIMPLEHTMLDOM绰绰有余。

$html = file_get_html('http://www.youtube.com/');
$title = $html -> find("title") -> innerHTML;
echo $title;

答案 1 :(得分:0)

如果要将换行符包含在正则表达式中,在大多数情况下,您只需要在表达式中使用\n。那就是说,你使用哪种语言/翻译?其中一些不允许多行表达。

如果允许,(.|\n|\r)*之类的东西就足够了。

如果您的语言或解释器与多行正则表达式不兼容,您始终可以用空格替换换行符,然后将生成的字符串传递给正则表达式解析器。这也取决于您的编程环境。

希望有所帮助!