我想收集Google搜索的日语文章。我尝试提取日语句子,然后运行以下代码以获取包含最多日语单词的标签。
texts = mostTag.xpath('<<path>>/text()').extract()
text = ''
for s in texts:
text += s
但是,在某些情况下,此代码存在问题,因为文章在以下句子之间具有链接。
<div class="sample">
<p>
"A"
<a href="link.html">B</a>
"C"
</p>
</div>
在这种情况下,我的程序获得AC,但我想要的是ABC。如果有人告诉我如何获得“ ABC”一词,我将不胜感激。
答案 0 :(得分:0)
您可以尝试使用string()
:
text = mostTag.xpath('string(//div[@class="sample"])').extract_first()
或使用html2text