从文本中提取Python域 - 新TLD识别问题

时间:2017-05-03 12:59:47

标签: python parsing dns tld

随着新顶级域名(.club,.jobs等)的出现,目前从文本中提取/解析域的最佳做法是什么?我的典型方法是正则表达式但是考虑到带有扩展名的文件名会触发误报,我需要更严格的限制。

我注意到即使谷歌有时也无法正确识别我是在搜索文件名还是想要去域名。这似乎是一个相当具有挑战性的问题。机器学习可能是一种理解字符串周围环境的方法。但是,除非有一个库已经这样做,否则我不会太费劲。

我正在考虑的一种方法是在regexing之后查询http://data.iana.org/TLD/tlds-alpha-by-domain.txt,其中包含当前TLD的静态列表并将其用作过滤器。有什么建议吗?

1 个答案:

答案 0 :(得分:0)

这不是一个简单的问题,它取决于您需要提取域名的上下文,以及您可以支持的误报和否定的可接受率。您确实可以使用当前存在的顶级域名列表,但此列表会发生变化,因此您需要确保考虑最近列出的值。

您正在努力确保所有TLD(无论长度,创建日期和使用的字符数)相等,都会遇到Universal Acceptance运动所涵盖的问题。

他们提供了一个关于“链接”的文件,该文件作为一个子问题,提取链接的事实,因此提取域名等。看看他们的文档:https://uasg.tech/wp-content/uploads/2017/06/UASG010-Quick-Guide-to-Linkification.pdf

因此,这可以为您提供一些想法,以及https://uasg.tech/wp-content/uploads/2016/06/UASG005-160302-en-quickguide-digital.pdf

上的快速指南