动态生成的网页抓取

时间:2015-04-25 14:23:08

标签: python html web-scraping screen-scraping

我正在尝试构建一个可以从网页下载数据的解析器。问题是该页面可能是“动态生成的”。大括号中有一些代码可能会产生html代码。看起来像Django代码。

这是一种模式:

<script charset="utf-8" type="text/javascript">var browseDefaultColumn = 4; var browse5ColumnLength= '15,24'; var browse4ColumnLength = '20,28'; var browse3ColumnLength = '25,42';var priceFilterSliderEnabled = true;var browseLowPageLength = 24;var browseHighPageLength = 100;</script>
<script id="products-template" type="text/template">
    {{#products}}
        <li class="{{RowCssClass}}" style="{{RowStyle}}" li-productid="{{ItemCode}}">
            <div class="s-productthumbbox">
                <div class="productimage s-productthumbimage col-xs-6 col-sm-12 col-md-12">
                    <a href="{{PrdUrl}}" class="s-product-sache">{{#ImgSashVisible}}
                            <img src="{{ImgSashUrl}}" class="rtSashImg img-responsive">
                        {{/ImgSashVisible}}
                    </a>
                    <a href="{{PrdUrl}}" class="ProductImageList">
                        <div>
                            <img class="rtimg img-responsive" src='{{MainImage}}' alt='{{Brand}} {{DisplayName}}' />
                        </div>
                        {{#EnableAltImages}}
                            <div class="AlternateImageContainerDiv">
                                <img class="rtimg ProductImageListAlternateImage img-responsive" src='{{AltImage}}' alt='{{Brand}} {{DisplayName}}' />
                            </div>
                        {{/EnableAltImages}}
                    </a>
                    <div class="QuickBuyAndWishListContainerDiv hidden-xs {{QuickBuyAndWishListCss}}">
                        {{#IsQuickBuyEnabled}}

我正在寻找一种方法来获取包含生成代码的整个代码,以便我可以解析它,例如使用Beautiful Soup。或其他有效的方式来获取数据。

1 个答案:

答案 0 :(得分:0)

你拥有的HTML可能是一个模板,它需要由模板引擎解析以填充内容,之后你应该能够获得最终的HTML并解析它。
您通常不从服务器获取模板HTML服务器,这必须是脱机文件?