如何获得包含链接的句子?

时间:2018-08-14 12:06:08

标签: scrapy

我想收集Google搜索的日语文章。我尝试提取日语句子,然后运行以下代码以获取包含最多日语单词的标签。

texts = mostTag.xpath('<<path>>/text()').extract()
text = ''
for s in texts:
    text += s

但是,在某些情况下,此代码存在问题,因为文章在以下句子之间具有链接。

<div class="sample">
  <p>
    "A"
    <a href="link.html">B</a>
    "C"
  </p>
</div>

在这种情况下,我的程序获得AC,但我想要的是ABC。如果有人告诉我如何获得“ ABC”一词,我将不胜感激。

1 个答案:

答案 0 :(得分:0)

您可以尝试使用string()

text = mostTag.xpath('string(//div[@class="sample"])').extract_first()

或使用html2text