我需要从数据库中提取所有链接(URL)。要么,使用SQL语句或Python,我如何从表中提取链接?
有时没有链接,有时是1,有时超过1.
举个例子:
数据库名称(dbase) 表: id(int) col1(包含URL的文本) col2(包含URL的文本) col3(包含URL的文本) col4(包含URL的文本)
col1,col2,col3和col4包含文本和URL。 (imagen电子邮件包含URL)
我想为示例名称(URL_found)创建一个新的coloum名称,以便在col1,col2,col3和col4中找到所有URL。
示例
col1中的有 你好,嗨,这是一个测试http://www.example.com/somewhereelse/some/where,如果你买这个,我会给你一个免费的表格
关于如何做到这一点的任何想法?
谢谢 -答案 0 :(得分:0)
这是一个广泛的问题,所以这是一个广泛的建议。您可能需要使用python客户端遍历表中的记录,并使用正则表达式或其他一些python解析库来解析每列中的字符串以获取有效的URL。
找到列或记录的匹配项后,可以将它们设置为另一列URL_found
,并在网址之间添加某种分隔符...但它似乎更有用创建一个新的数据库表,如URL_found
,其中包含与原始表中记录的外键关系。