使用PHP获取任何语言的任何网站的标题和元标记

时间:2011-08-02 23:31:56

标签: php character-encoding html-parsing meta-tags

我想弄清楚如何从网页中获取标题和所有元标记

<title>A common title</title>
<meta name="keywords" content="Keywords blabla" />
<meta name="description" content="This is the description" />

这个问题似乎在stackoverflow上被多次询问和回答,但没有回答关心网页的语言/字符集。例如,shamittomar这里的脚本Getting title and meta tags from external website仅适用于utf-8中的网页。这个脚本无法正常工作,因为它会为这些网站返回奇怪的结果:

http://www.tudou.com/

http://svmpbt.com/

(注意:以上网站不是我的,只是示例)

有没有办法以正确的方式做到这一点,有没有可用的类来做到这一点?由于Facebook Linter可以正常使用上述网站,我认为PHP脚本中有可用的解决方案。

感谢。

1 个答案:

答案 0 :(得分:0)

你应该使用php的“get_meta_tags”函数,它提供标题,desscription和关键字。对于它,请参考此链接:http://php.net/manual/en/function.get-meta-tags.php
如果您需要更多信息,那么您也可以使用“file_get_contents”方法,它将返回该URL的来源,然后解析它并提取相关信息。请参阅此链接:http://in2.php.net/manual/en/function.file-get-contents.php