Python在关键字和括号后提取文本

时间:2015-07-30 13:09:19

标签: python regex text web-scraping extract

我是python中的新手,经过一些在互联网上搜索的尝试后,有点困惑。我想要做的是:从网站中提取一些信息,其网页源包含以下信息。我想提取最后括号中包含的纬度/经度信息:19.xxxxx,-19.xxxxx。

我的想法是搜索myOptions,然后检索括号内的坐标。我该如何实现呢?谢谢!

<script>
function initialize() {
    var map, mapOptions, info, i, func, func1, borrar, capa,
        marcador = [], marcadorcalle = [], locales = [], calles = [];

    func = function (num, tipo) {
        return function () {
            if (tipo) {
                info.setContent('<b>' + calles[num][0] + '</b>');
                info.open(map, marcadorcalle[num]);
            } else {
                info.setContent('<b>' + locales[num][0] + '</b><br />' + locales[num][3]);
                info.open(map, marcador[num]);
            }
        };
    };

    func1 = function (objeto, tipo) {
        return function () {
            if (tipo) {
                if (borrar) {borrar.setMap(null); }
                borrar = objeto;
                objeto.setMap(map);
            }
            map.setZoom(18);
            map.setCenter(objeto.getPosition());
            google.maps.event.trigger(objeto, 'click');
        };
    };

    mapOptions = {
        zoom: 16,
        scrollwheel: false,
        center: new google.maps.LatLng(19.xxxxx, -19.xxxxx)
    };

1 个答案:

答案 0 :(得分:2)

这是正则表达式最能发挥作用的地方:

import re

map_lat_long = re.compile(r'google\.maps\.LatLng\(([\d.-]+),\s*([\d.-]+)\)')
lat, long = map_lat_long.search(page_source).groups()

这假定使用实际数字代替xxxxx。表达式与文字google.maps.LatLng(..)文本匹配,并通过查找1个或多个数字,点和破折号从中提取两个数字。

演示(样本减少):

>>> import re
>>> sample = '''\
... mapOptions = {
...     zoom: 16,
...     scrollwheel: false,
...     center: new google.maps.LatLng(19.12345, -19.67890)
... };
... '''
>>> map_lat_long = re.compile(r'google\.maps\.LatLng\(([\d.-]+),\s*([\d.-]+)\)')
>>> map_lat_long.search(sample).groups()
('19.12345', '-19.67890')