用python分隔网站的多个类

时间:2018-06-19 07:31:33

标签: python html web-crawler

我正在抓取网站上的一些信息。但该网站的代码HTML如下:

<div class="divClearBoth"></div>
<div class="divContentrArticlesDetail">Trung t&#226;m Lưu k&#253; Chứng kho&#225;n Việt Nam (VSD) xin th&#244;ng b&#225;o về ng&#224;y đăng k&#253; cuối c&#249;ng như sau:</div>
<div class="TitleArticles">T&#234;n tổ chức ph&#225;t h&#224;nh:</div>
<div class="ContentArticles">C&#244;ng ty cổ phần Dược - Vật tư  Y tế Nghệ An</div> <div class="divClearBoth"></div>
<div class="TitleArticles">T&#234;n chứng kho&#225;n</div>
<div class="ContentArticles">Cổ phiếu C&#244;ng ty cổ phần Dược - Vật tư Y tế Nghệ An</div> <div class="divClearBoth"></div>
<div class="TitleArticles">M&#227; chứng kho&#225;n: </div>
<div class="ContentArticles">NTF</div> <div class="divClearBoth"></div>
<div class="TitleArticles">M&#227; ISIN:</div>
<div class="ContentArticles">VN000000NTF6</div> <div class="divClearBoth"></div>
<div class="TitleArticles">Mệnh gi&#225;:</div>
<div class="ContentArticles">10,000 đ&#244;̀ng</div> <div class="divClearBoth"></div>
<div class="TitleArticles">S&#224;n giao dịch:</div>
<div class="ContentArticles">Đại chúng chưa ni&#234;m y&#234;́t</div> <div class="divClearBoth"></div>
<div class="TitleArticles">Loại chứng kho&#225;n:</div>
<div class="ContentArticles">Cổ phiếu phổ th&#244;ng</div> <div class="divClearBoth"></div>
<div class="TitleArticles">Ng&#224;y đăng k&#253; cuối c&#249;ng: </div>
<div class="ContentArticles">28/06/2018</div> <div class="divClearBoth"></div>

enter image description here 如您所见,它有许多名为“TitleArticles”和“ContentArticles”的类。但我想将每个类标记为不同的标题名称。

这是我的代码,直到现在。请帮帮我,谢谢!

def parse_content(self, response):
    titlesum = ' '.join(response.selector.xpath(
        '//div[@class="divHeaderArticlesDetail"]//text()').extract()).lstrip().rstrip()
    summary = ' '.join(response.selector.xpath(
        '//div[@class="divContentrArticlesDetail"]//text()').extract()).lstrip().rstrip()
    title = ' '.join(response.selector.xpath(
        '//div[@class="TitleArticles"]//text()').extract()).lstrip().rstrip()
    content = ' '.join(response.selector.xpath(
        '//div[@class="ContentArticles"]//text()').extract()).lstrip().rstrip()
    contentsum = '\n'.join(response.selector.xpath(
        '//div[@class="divPadingLeft"]/div[@style="text-align: justify;"]//text()').extract()).lstrip().rstrip()
    date = ' '.join(response.selector.xpath(
        '//div[@class="divPublicTimeArticlesDetail"]//text()').extract()).lstrip().rstrip()
    return {'_id': response.url, 'date': date, 'titlesum': titlesum, 'title': title, 'summary': summary,
            'content': content, 'contentsum': contentsum}

0 个答案:

没有答案