Question

我正在从网页中抓取数据以供API使用，并正在寻找最pythonic /最合适的方式来实现-该页面源代码中有一个名为“ markerData”的词典列表，我需要抓取lat和lng值。

数据样本：

“ markerData”： [{“ docEl”：null，“ lid”：0，“ clickable”：true，“ lat”：34.0489281，“ lng”：-111.0937311，“ title”：“”，“ iconURL”：“ // assets.bankofamerica .com / images / mapmarker2.png“，”信息“：”

Answer 1

这是我编写的函数，可以帮助我完成工作，以防在类似情况下可能对其他人有所帮助：

def get_coordinates():

        page = requests.get('https://locators.bankofamerica.com/&check_list=4429')
        tree = html.fromstring(page.content)

        lat_lng = tree.xpath("//script[contains(., 'markerData')]/text()")
        lat_lng_string = str(lat_lng)
        latitude = re.findall('"lat":\d+\.\d+', lat_lng_string)
        longitude = re.findall('"lng":-\d+\.\d+', lat_lng_string)

        la = re.findall('\d+\.\d+', str(latitude))
        lo = re.findall('-\d+\.\d+', str(longitude))

        coords = dict(zip(la, lo))

        return coords

使用python从网站抓取数据列表的最佳方法

1 个答案: