从存储在数据框的列中的多个网址中提取数据

时间:2018-12-09 07:45:50

标签: python pandas dataframe web-scraping data-science

我想从多个URL中提取数据,但是这些URL在数据框的一列中。

我尝试使用下面的代码提取数据,但是没有运气。

from urllib.request import urlopen,Request
link = data.column1
f = urlopen(link)
myfile = f.read()
print(myfile)

它显示:

  

AttributeError:“系列”对象没有属性“类型”。

请帮助提供代码。 谢谢

1 个答案:

答案 0 :(得分:0)

问题是您试图一次对整个网址系列执行操作。

尝试遍历data.column1的项目,不要忘记使用with处理资源以防止潜在的内存泄漏:

from urllib.request import urlopen

for link in data['column1']:
    with urlopen(link) as response:
        myfile = response.read()
        print(myfile)