如何仅在网站的源代码中抓取特定的缩小文件

时间:2019-05-30 04:32:07

标签: python python-3.x web-scraping

我正在抓取Geodata源代码以获取结果。我在搜索结果页面的源代码中找到了一个缩小的文件,希望将其拉入python程序。当您使用inspect元素时,您可以查看源并看到一个名为搜索结果的文件。我希望我的程序在抓取网页时将其拉入。在下面的代码中,它提取的是源代码,但不是我想要的确切代码,可以在源代码“源”选项卡中的缩小文件中找到该代码。

image

    from bs4 import BeautifulSoup
    import requests
    import urllib.request
    import urllib.error
    import os, os.path, csv
    import sys

    sys.stdout = open('test', 'a')
    print(sys.stdout)

    url = "https://www.geodatadirect.com/SearchResults/SuffolkSearchResults.aspx?state=NY&id=Suffolk&type=Sales"

    urllib.request.urlopen("https://www.geodatadirect.com/SearchResults/SuffolkSearchResults.aspx?state=NY&id=Suffolk&type=Sales").read()
    content = urllib.request.urlopen(url).read()
    soup=BeautifulSoup(content)

    print(soup.prettify())

0 个答案:

没有答案