从域获取FQDN

时间:2019-02-19 20:33:28

标签: selenium url selenium-webdriver web-scraping wget

这是我在这里的第一个问题,所以我会尽力而为。

我正在尝试从一堆域中获取FQDN(完全合格的域名),即从https://es.aliexpress.com中获取aliexpress.com。 我已经尝试过Selenium webdriver,但是计算所有域花费的时间太长(即使超时时间短且图像阻塞)。

我在问是否有人知道一种不加载内容的方法,例如wget,但仅用于URL。

感谢您阅读。

1 个答案:

答案 0 :(得分:3)

不是真的...

首先,httphttps与域名无关。这些是传输协议。

忽略该部分,您访问FQDN的内容通常是在访问它们时生成的。

例如,许多网站根据您的用户代理字符串将浏览器从桌面网站重定向到移动版本(典型的m.something.com)。表示www.something.comm.something.com都是有效答案

在您提供的示例aliexpress.com中,前置es.,这意味着服务器上最有可能在您的位置(基于IP地址)或浏览器中的区域设置中读取某些代码,以将您定向到网站的es版本,而不是endk版本。

可以通过网站根文件夹中的.htaccess文件或通过后端代码来完成这些更改。

如果您似乎在所有内容栏中键入了URL,则Google Chrome本身会自动尝试添加www.

URL也可能是一个巨大的重定向。一些网站购买了额外的域名,这些域名都重定向到其核心站点。因此,即使您输入xyz.com,也将最终到达abcd.com

没有从基础URL到您所称的FQDN的算法方法。


P.S。 Here is an article了解FQDN的含义。