美丽的汤没有采摘你的某些标签

时间:2017-05-22 14:45:58

标签: python python-3.x web-scraping beautifulsoup

好的,我在这里已经阅读了很多关于使用美味汤的答案。并且仍然没有运气得到我需要做的就是我的

soup = BeautifulSoup(open("/home/brendan/PycharmProjects/untitled2/newDeficency.html"),"html5lib")

for element in soup.find_all('input'):
    print(element['name'], element['value'])

由于这是现在较大程序的一部分,我刚刚缓存了页面类型的副本,我现在想要抓取这个当前只返回以下代码返回文档中的所有超链接

for element in soup.find_all('a'):
    print(element['href'])

我不确定为什么这样做不正常,因为我也尝试过使用

'li' , 'select' 'option' and 'form' 

没有成功,尽管他们明确地在这里是here is a link to source page

非常感谢,因为我现在已经乱了几行这几行代码并完全丢失了

1 个答案:

答案 0 :(得分:0)

这可能就是你所需要的。

HTML = '''\
<html>
<body>
<form>
    <input type='text' name='name' value='jones'></input>
    <input type='text' name='rank' value='private'></input>
    <input type='text' name='serial_number' value='B18567'></input>
</form>
</body>
</html>'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(HTML, 'lxml')
for element in soup.find_all('input'):
    print (element.attrs['name'], element.attrs['value'], element.attrs['type']) 

输出:

name jones text
rank private text
serial_number B18567 text

编辑:当您打开已在浏览器中下载的文件时,您应该会在浏览器窗口中看到类似的内容。

upper left corner of browser window

现在,在Windows Ctrl-A,Ctrl-C中将剪贴板内容放入名为temp.htm的文件中。