今天我们正在使用Cheerio's,尤其是.text()方法来从html输入中提取文本。
但是当html是
<div>
By<div><h2 class="authorh2">John Smith</h2></div>
</div>
在页面上,“ by”一词后的/ div可以确保有空格或换行符。 但是当应用cheerio text()时,我们得到的结果是错误的:
ByJohn smith
=>这是错误的,因为我们需要在By和john之间留一个空格。
通常来说,是否有可能以某种特殊的方式获取文本,以便将任何html标记替换为空格。 (我可以先修剪所有多个白色空格...)
我们希望得到约翰·史密斯(John Smith)的输出