如何查找我是否拥有相同的域名,但使用不同的扩展名

时间:2014-03-04 13:42:37

标签: php

我有一个问题,我认为解决起来很简单,但我无法理解。

我的数据库中包含以下网址:

现在,给定http://www.domain.co.uk/page.html

我需要弄清楚这样的页面是否已经在数据库中,假设不同的扩展名不会改变内容。

最终目标很简单,我正在建立一个人们可以提交页面的网站,这些网页需要是唯一的,以避免重复内容。用户正在提交谷歌地图.com和谷歌地图.co.in创建同一页面的重复,我需要做的是弄清楚提交的页面是否已经提交了不同的域名扩展名。如果找到,我还会检查标题和内容,以防域名扩展改变内容(如www.wyska.net和www.wyska.com)

换句话说,

  • maps.google.com === maps.google.it === maps.google.co.in === maps.google.co.uk .....

只有当内容“相似”时(我将不得不弄清楚“类似”的含义)

到目前为止,我有(但它不起作用):

<?php
$url = 'http://www.domain.com/text.html';  //works with this domain
$parse = parse_url($url);
var_dump($parse);
var_dump(pathinfo($parse['host']));

$url = 'http://sub.sub.domain.co.in/text.html';  //does not work with this domain
$parse = parse_url($url);
var_dump($parse);
var_dump(pathinfo($parse['host']));
?>

如果有必要,我甚至可以在不同的部分打破域名并存储这些部分而不是完整域名。

我想在域扩展上进行搜索替换,但我无法找到要使用的域扩展的完整列表。类似于:如果它以任何字符串结尾,则从域中删除该部分

0 个答案:

没有答案