我正在抓取网站上的一些信息。但该网站的代码HTML如下:
<div class="divClearBoth"></div>
<div class="divContentrArticlesDetail">Trung tâm Lưu ký Chứng khoán Việt Nam (VSD) xin thông báo về ngày đăng ký cuối cùng như sau:</div>
<div class="TitleArticles">Tên tổ chức phát hành:</div>
<div class="ContentArticles">Công ty cổ phần Dược - Vật tư Y tế Nghệ An</div> <div class="divClearBoth"></div>
<div class="TitleArticles">Tên chứng khoán</div>
<div class="ContentArticles">Cổ phiếu Công ty cổ phần Dược - Vật tư Y tế Nghệ An</div> <div class="divClearBoth"></div>
<div class="TitleArticles">Mã chứng khoán: </div>
<div class="ContentArticles">NTF</div> <div class="divClearBoth"></div>
<div class="TitleArticles">Mã ISIN:</div>
<div class="ContentArticles">VN000000NTF6</div> <div class="divClearBoth"></div>
<div class="TitleArticles">Mệnh giá:</div>
<div class="ContentArticles">10,000 đồng</div> <div class="divClearBoth"></div>
<div class="TitleArticles">Sàn giao dịch:</div>
<div class="ContentArticles">Đại chúng chưa niêm yết</div> <div class="divClearBoth"></div>
<div class="TitleArticles">Loại chứng khoán:</div>
<div class="ContentArticles">Cổ phiếu phổ thông</div> <div class="divClearBoth"></div>
<div class="TitleArticles">Ngày đăng ký cuối cùng: </div>
<div class="ContentArticles">28/06/2018</div> <div class="divClearBoth"></div>
如您所见,它有许多名为“TitleArticles”和“ContentArticles”的类。但我想将每个类标记为不同的标题名称。
这是我的代码,直到现在。请帮帮我,谢谢!
def parse_content(self, response):
titlesum = ' '.join(response.selector.xpath(
'//div[@class="divHeaderArticlesDetail"]//text()').extract()).lstrip().rstrip()
summary = ' '.join(response.selector.xpath(
'//div[@class="divContentrArticlesDetail"]//text()').extract()).lstrip().rstrip()
title = ' '.join(response.selector.xpath(
'//div[@class="TitleArticles"]//text()').extract()).lstrip().rstrip()
content = ' '.join(response.selector.xpath(
'//div[@class="ContentArticles"]//text()').extract()).lstrip().rstrip()
contentsum = '\n'.join(response.selector.xpath(
'//div[@class="divPadingLeft"]/div[@style="text-align: justify;"]//text()').extract()).lstrip().rstrip()
date = ' '.join(response.selector.xpath(
'//div[@class="divPublicTimeArticlesDetail"]//text()').extract()).lstrip().rstrip()
return {'_id': response.url, 'date': date, 'titlesum': titlesum, 'title': title, 'summary': summary,
'content': content, 'contentsum': contentsum}