有一个大文件。此文件的每一行都是由人类输入的网址,因此可能会出现错误http
缺少www
等不同的问题。
是否有可以修复这些网址的Python模块?我已经url_fix
尝试了werkzeug.urls
,但这并不是我正在搜索的内容。
www.example.com >> http://www.example.com/
当然,不能修复每一个可能的错误的方法,但我正在寻找修复最常见的错误。
你有什么建议吗?
编辑:根据Peter Wood的评论,我们假设URL必须包含www
。就我而言,这些是eshop网址。