Python Selenium Scraping HREF + Anchor Text

时间:2018-05-24 06:41:52

标签: python selenium web-scraping

我有以下代码段成功从xpath中提取锚文本和href属性,我没有透露。使用两个检索到的值,我希望它们匹配,以便我可以写入文件。你可以在最后几行看到我的思考过程。

deal_title = browser.find_elements_by_xpath("//")
for title in deal_title:
    anchor_title = title.text

deal_link = browser.find_elements_by_xpath("//")
for link in deal_link:
    text_link = link.get_attribute('href')

#code below does not work

for text_link, anchor_title in zip(text_link, anchor_title):
    f.write("<a href=" + text_link + ">" + anchor_title + "</a>")

最终,这应该使用正确的相应URL打印出所有锚文本(无标记),从而在我正在编写的HTML文件中生成可点击的链接。

提前致谢。

1 个答案:

答案 0 :(得分:0)

您将所有值存储在单个变量中。您将始终获得最后一个值。我将它存储在列表中。这样,你可以迭代列表,如下所示。它可以解决您的问题。

deal_title = browser.find_elements_by_xpath("//")
titles = []
for title in deal_title:
    titles.append(title.text)

deal_link = browser.find_elements_by_xpath("//")
links = []
for link in deal_link:
    links.append(link.get_attribute('href'))

for title, link in zip(titles, links):
    f.write("<a href=" + link + ">" + title + "</a>")