我想知道如何以编程方式获取网页的网站名称和网页名称,或至少如何获得最佳猜测。
例如,此问题网页的网站名称为Stack Overflow,页面标题为“如何获取网页的网站名称和页面标题”。
我知道不可能获得100%的准确度(甚至接近),但至少能够尝试这一点真的很棒。编程语言无关紧要。
答案 0 :(得分:0)
如果你正在使用像PHP Simple DOM Parser
这样的东西来抓取另一个网站preg_match("/<title>(.*)<\/title>/s", $a, $matches);
这就是标题之间的一切。如果您要尝试提取伪网站名称(假设它在标题中),您可以在它到达分隔符之前将第一系列字母整理出来,通常是“ - ”,“::”,“ - - “或其他一些变种。您可能想要查看100个网站并找到最常见的网站。
答案 1 :(得分:0)
您可以抓取页面并拉出标签的内容以获取标题。您应该使用HTML解析器来执行此操作。
我不确定如何获取网站的名称。你可以使用URL并干净地格式化吗?您可以取下TLD和任何子域,并将第一个字符大写。例如:
stackoverflow.com -> Stackoverflow
en.wikipedia.org -> Wikipedia
这显然不是一个完美的解决方案,但对于您的用例可能已经足够了。
答案 2 :(得分:0)
正如你在服务器端所说,它可以用这种方式用javascript完成,
标题
var title = document.title;
和url
var location = document.location.href;