如何获取网页的网站名称和页面标题

时间:2011-06-21 17:21:04

标签: web-applications web

我想知道如何以编程方式获取网页的网站名称和网页名称,或至少如何获得最佳猜测。

例如,此问题网页的网站名称为Stack Overflow,页面标题为“如何获取网页的网站名称和页面标题”。

我知道不可能获得100%的准确度(甚至接近),但至少能够尝试这一点真的很棒。编程语言无关紧要。

3 个答案:

答案 0 :(得分:0)

如果你正在使用像PHP Simple DOM Parser

这样的东西来抓取另一个网站
preg_match("/<title>(.*)<\/title>/s", $a, $matches); 

这就是标题之间的一切。如果您要尝试提取伪网站名称(假设它在标题中),您可以在它到达分隔符之前将第一系列字母整理出来,通常是“ - ”,“::”,“ - - “或其他一些变种。您可能想要查看100个网站并找到最常见的网站。

答案 1 :(得分:0)

您可以抓取页面并拉出标签的内容以获取标题。您应该使用HTML解析器来执行此操作。

我不确定如何获取网站的名称。你可以使用URL并干净地格式化吗?您可以取下TLD和任何子域,并将第一个字符大写。例如:

stackoverflow.com -> Stackoverflow
en.wikipedia.org -> Wikipedia

这显然不是一个完美的解决方案,但对于您的用例可能已经足够了。

答案 2 :(得分:0)

正如你在服务器端所说,它可以用这种方式用javascript完成,

标题

var title = document.title;

和url

var location = document.location.href;