perl模块检测外网

时间:2012-06-08 03:57:46

标签: regex perl url module detect

我正在制作一个抓取工具,我只想使用美国域名。例如,我想要:

 http://thenorthface.com/

但我不想要:

http://uk.thenorthface.com
or
http://se.thenorthface.com/

有没有人知道这样做的方法或执行此操作的perl模块?我知道它可以用正则表达式来完成,但我正在努力避免将所有外国域名开头的列表聚集在一起...非常感谢!

1 个答案:

答案 0 :(得分:2)

您无法可靠地确定网址中的“美国”域名。甚至不清楚“美国域名”一词是否有任何意义。

例如,许多美国州缩写也是ISO-3166国家/地区代码。您将如何处理ar.xyz.com。是阿肯色州还是阿根廷?那么ma.pdq.com ...... Massachussetts还是摩洛哥(Maroc in French)?

您可以将二级域名链接到一个国家/地区(至少为总部),但主机名和三级域名将无法分类。