使用美丽的汤来刮取CSS课程中的网址?

时间:2015-10-31 17:58:53

标签: python html beautifulsoup

这是我可以使用以下代码获取的html。我只是想从中获取链接。司机是为了硒。

html = driver.page_source
soup = BeautifulSoup(html)

file_link = soup.select(".inpfilelink")
return file_link

print file_upload("/home/ro/Documents/Aaatrack.pdf")

我正在试图抓取的HTML。

<input class="inpfilelink" type="text" onclick="window.open(this.value);" style="cursor: pointer; padding: 5px; font-size: 13px;" onmouseover="this.focus(); this.select()" value="http://speedy.sh/PFZwD/offsore.pdf" title="Press CTRL + C to copy to clipboard now">

我也试过

link = soup.find('input')['value']
print(link)

返回       MARKUP_TYPE = MARKUP_TYPE))

/upload_page.php

我也尝试过做

link = soup.find('input')

返回

<input name="redir" type="hidden" value="/upload_page.php"/>

1 个答案:

答案 0 :(得分:0)

如果我理解正确,您希望从value中的input抓取网址:

link = soup.find('input')['value']
print(link)

<强>结果

http://speedy.sh/PFZwD/offsore.pdf

['...']

中使用它们来删除任何属性