我已经搜索并稍微介绍了一些python中的网络爬行库,如scrapy,beautifulsoup等。使用这些库我想要抓取文档中特定标题下的所有文本。如果你们中的任何人能帮助我,他/她的帮助将受到高度赞赏。我看过一些教程,说明如何使用漂亮的肥皂获取特定类名下的链接(通过查看源页面选项)但是如何获得简单的文本而不是特定类标题下的链接。抱歉我的英文不好
import requests
from bs4 import BeautifulSoup
r=requests.get('https://patents.google.com/patent/US6886010B2/en')
print(r.content)
soup=BeautifulSoup(r.content)
for link in soup.find_all("div", class_="claims"):
print(link)
这里我提取了索赔文本,但它也显示了在这些索赔中写的其他div是div中的div我只想提取索赔的文本。
答案 0 :(得分:0)
通过链接,我假设您指的是div
元素的全部内容。如果您只想打印其中包含的文字,请使用.text
属性或.get_text()
方法。声明的整个文本都包含在唯一的section
元素中。所以你可能想试试这个:
print(soup.find('section', attrs={'id': 'claims'}).text)
get_text
方法为您提供了更多的灵活性,例如将文本位与分隔符连接在一起并剥离额外换行符的文本。
另外,请查看BeautifulSoup Documentation并花些时间阅读。