我正在尝试从网站上抓取数据以进行分析以供实践。我在特定网站上遇到了一些问题。该网站介绍了西雅图地区的警察报告。我已经读了很多文章,却找不到答案。网址是“ https://data.seattle.gov/Public-Safety/real-time-911/nvqc-w7eg”
我知道我应该使用漂亮的汤,并尝试找到一个关键字进行搜索,然后将类型转换为文本。但是,我一直没有。
QueryRescorerBuilder queryRescorerBuilder = QueryBuilders.rescoreQuery()
我的目标是将表转换为csv文件。有人可以帮我吗?
答案 0 :(得分:0)
尝试
soup = BeautifulSoup(page.text, "html.parser")
答案 1 :(得分:0)
用于创建BeautifulSoup对象:
soup = BeautifulSoup(page.text, "lxml")
或
soup = BeautifulSoup(page.text, "html.parser")
或
soup = BeautifulSoup(page.content, 'html.parser')
我认为,您应该使用lxml
,因为它具有良好的性能。
答案 2 :(得分:0)
使用lxml
或html.parser
解析HTML。有些具有比其他优点,包括lxml
非常快的事实。
URL = 'https://data.seattle.gov/Public-Safety/real-time-911/nvqc-w7eg'
page = requests.get(URL)
from bs4 import BeautifulSoup
soup = BeautifulSoup(page.text, "html.parser") #or lxml, htmlparser is just example
与其将它直接放在没有字符串的内部,而不是将其与字符串一起放入,以使Python知道您正在处理解析器。