如何从特定网站抓取数据

时间:2020-04-22 14:25:46

标签: python html

我正在尝试从网站上抓取数据以进行分析以供实践。我在特定网站上遇到了一些问题。该网站介绍了西雅图地区的警察报告。我已经读了很多文章,却找不到答案。网址是“ https://data.seattle.gov/Public-Safety/real-time-911/nvqc-w7eg

我知道我应该使用漂亮的汤,并尝试找到一个关键字进行搜索,然后将类型转换为文本。但是,我一直没有。

QueryRescorerBuilder queryRescorerBuilder = QueryBuilders.rescoreQuery()

我的目标是将表转换为csv文件。有人可以帮我吗?

3 个答案:

答案 0 :(得分:0)

尝试

soup = BeautifulSoup(page.text, "html.parser")

答案 1 :(得分:0)

用于创建BeautifulSoup对象:

soup = BeautifulSoup(page.text, "lxml")

soup = BeautifulSoup(page.text, "html.parser")

soup = BeautifulSoup(page.content, 'html.parser')

我认为,您应该使用lxml,因为它具有良好的性能。

答案 2 :(得分:0)

使用lxmlhtml.parser解析HTML。有些具有比其他优点,包括lxml非常快的事实。

URL = 'https://data.seattle.gov/Public-Safety/real-time-911/nvqc-w7eg'
page = requests.get(URL) 
from bs4 import BeautifulSoup
soup = BeautifulSoup(page.text, "html.parser") #or lxml, htmlparser is just example

与其将它直接放在没有字符串的内部,而不是将其与字符串一起放入,以使Python知道您正在处理解析器。