我正在尝试使用鹅提取元描述。我写了以下代码。我还考虑过cookie处理。当我只使用一个网址进行测试时,它可以工作。但是,当我遍历一个url数组时,当我使用以下代码提取元描述时,会产生一个空数组。
os.chdir("C:\Users\EDAWES01\Desktop\Cookie profiling")
data = pandas.read_csv('activity_url.csv', delimiter=';')
x="https"
url_data=np.array(data[(data.iloc[:,2]==1) & (data.iloc[:,1].str.contains(x))])[:,1]
#remove '~oref='
clean_url_data=[urlparse.urlparse(i)[2].split("=")[1] for i in url_data]
g=goose.Goose()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor()) #for websites with cookie handling
website_meta_description=[g.extract(raw_html=(opener.open(urlw)).read()).meta_description for urlw in clean_url_data]
print website_meta_description