我如何使用美丽的汤从网站上自动获取所需的信息?

时间:2018-08-12 12:51:58

标签: html python-3.x web-scraping beautifulsoup

假设我有一个名为.txt的{​​{1}}文件,该文件包含我要测试其可用性的域,并且每个域都位于不同的行,例如:

domains.txt

在经过一些研究后,我想在此网站https://www.name.com上对它们进行测试,我发现美丽的汤和沙爹可以胜任类似的任务,因为沙爹是一个过大的杀手,所以我专注于美丽的汤。

我对如何检查网页进行了一些研究,发现我所关注的确切部分是我认为搜索部分是:

school.com
math.com
stack.com
jeans.com

,填充后应单击的按钮搜索,假设第一个元素<input id="search-keyword" type="search" name="keyword" value="school.com" spellcheck="false" autocomplete="off" autocorrect="off" autocapitalize="off" placeholder="Find your domain name"> 是:

school.com

但是我没有设法理解和复制类和id以及占位符的用法。

我的操作系统是Windows 8.1。

1 个答案:

答案 0 :(得分:0)

这个问题真的很奇怪,因为我不认为您在网上搜索过。互联网上充满了指南和像您一样已经解决的问题。只是搜索。


无论如何,请尝试:

div = soup.find(id="search-keyword")

通过beautifulsoup查找所需的元素。


但是要“单击”提交并填写表格,您需要另一个适当的库。就像一样。这是指南:https://selenium-python.readthedocs.io/

要搜索元素并填写表格:

element = driver.find_element_by_id("search-keyword")
element.send_keys("whateveryouwant")

点击提交表单:

driver.find_element_by_id("search-start").click()