Question

我想收集Google搜索的日语文章。我尝试提取日语句子，然后运行以下代码以获取包含最多日语单词的标签。

texts = mostTag.xpath('<<path>>/text()').extract()
text = ''
for s in texts:
    text += s

但是，在某些情况下，此代码存在问题，因为文章在以下句子之间具有链接。

<div class="sample">
  <p>
    "A"
    <a href="link.html">B</a>
    "C"
  </p>
</div>

在这种情况下，我的程序获得AC，但我想要的是ABC。如果有人告诉我如何获得“ ABC”一词，我将不胜感激。

Answer 1

您可以尝试使用string()：

text = mostTag.xpath('string(//div[@class="sample"])').extract_first()