python-3.x - 网络抓取后如何过滤文本

因此，我正试图对这个免费提供小说的网站进行网络抓取，例如以下页面：https://www.wuxiaworld.com/novel/martial-world/mw-chapter-1

我试图仅提取章节的标题和正文。因为标题在h4中就很容易找到标题，但是本章的正文没有被任何特定的div标签分隔，因此我不能仅仅将其隔离。我想知道我该怎么做。我最接近拥有文字的就是这个。

Ps。我是网络爬虫新手，如果我的问题不清楚或愚蠢，对不起。

我试图确定文本主体是否在任何排他的div标签下，但不是，因此我尝试在最接近的div标签下调用它，这仍然返回了很多无用和不需要的文本。 / p>

edit：@koro，使用了不止一个fr-view实例，因此不会隔离文本。 fr-view类也出现在章节文本之前。

我不熟悉网络爬虫，但是在查看页面源html时，我发现<div class="fr-view">仅在新颖页面上的正文之前。如果您在搜寻器识别出此行之后开始记录，则应该可以在下一个<a href="/novel.....标签处停止，仅包含新颖的文本。

我看到的某些页面还包括带有一些额外信息的脚注，其中包括一个<a href=#footnote....>标签，因此，如果您希望保留脚注，我会搜索<a href=/novel...>而不是{{ 1}}

P.S。我只看了四页，尽管它们看上去都与我上面指出的格式相同，但是仍然有可能遇到问题，但这绝对是您到达那里时可以跨越的桥梁！ / p>