我正在制作一个抓取工具,我只想使用美国域名。例如,我想要:
http://thenorthface.com/
但我不想要:
http://uk.thenorthface.com
or
http://se.thenorthface.com/
有没有人知道这样做的方法或执行此操作的perl模块?我知道它可以用正则表达式来完成,但我正在努力避免将所有外国域名开头的列表聚集在一起...非常感谢!
答案 0 :(得分:2)
您无法可靠地确定网址中的“美国”域名。甚至不清楚“美国域名”一词是否有任何意义。
例如,许多美国州缩写也是ISO-3166国家/地区代码。您将如何处理ar.xyz.com
。是阿肯色州还是阿根廷?那么ma.pdq.com
...... Massachussetts还是摩洛哥(Maroc in French)?
您可以将二级域名链接到一个国家/地区(至少为总部),但主机名和三级域名将无法分类。