大多数网站我可以使用RegEx“(。)”或“\ s (。+?)\ s *”轻松解析其标题。但是有些网站的格式有点不同,例如http://www.youtube.com(见下文)。上面的表达式不起作用。是否有任何帮助捕获这种格式和任何其他HTML格式?
由于 -Tim。
<title>
YouTube - Broadcast Yourself.
答案 0 :(得分:2)
有多种方法可以完成这项工作。仅限标题,SIMPLEHTMLDOM绰绰有余。
$html = file_get_html('http://www.youtube.com/');
$title = $html -> find("title") -> innerHTML;
echo $title;
答案 1 :(得分:0)
如果要将换行符包含在正则表达式中,在大多数情况下,您只需要在表达式中使用\n
。那就是说,你使用哪种语言/翻译?其中一些不允许多行表达。
如果允许,(.|\n|\r)*
之类的东西就足够了。
如果您的语言或解释器与多行正则表达式不兼容,您始终可以用空格替换换行符,然后将生成的字符串传递给正则表达式解析器。这也取决于您的编程环境。
希望有所帮助!