网络抓取后如何过滤文本

时间:2019-07-15 23:08:27

标签: python-3.x web-scraping

因此,我正试图对这个免费提供小说的网站进行网络抓取,例如以下页面:https://www.wuxiaworld.com/novel/martial-world/mw-chapter-1

我试图仅提取章节的标题和正文。因为标题在h4中就很容易找到标题,但是本章的正文没有被任何特定的div标签分隔,因此我不能仅仅将其隔离。我想知道我该怎么做。我最接近拥有文字的就是这个。

Ps。我是网络爬虫新手,如果我的问题不清楚或愚蠢,对不起。

我试图确定文本主体是否在任何排他的div标签下,但不是,因此我尝试在最接近的div标签下调用它,这仍然返回了很多无用和不需要的文本。 / p>

edit:@koro,使用了不止一个fr-view实例,因此不会隔离文本。 fr-view类也出现在章节文本之前。

1 个答案:

答案 0 :(得分:0)

我不熟悉网络爬虫,但是在查看页面源html时,我发现<div class="fr-view">仅在新颖页面上的正文之前。如果您在搜寻器识别出此行之后开始记录,则应该可以在下一个<a href="/novel.....标签处停止,仅包含新颖的文本。

我看到的某些页面还包括带有一些额外信息的脚注,其中包括一个<a href=#footnote....>标签,因此,如果您希望保留脚注,我会搜索<a href=/novel...>而不是{{ 1}}

P.S。我只看了四页,尽管它们看上去都与我上面指出的格式相同,但是仍然有可能遇到问题,但这绝对是您到达那里时可以跨越的桥梁! / p>