Question

我正在开发一个为HTML代码创建标签的程序。该计划的工作方式如下：

我的问题是，在对已经转换为文字的HTML代码执行搜索时，我不能排除任何包含"src = http://...."的部分，因为它在不同的网站中有所不同。这使得一些关键词变得无关紧要。

在这种情况下，有没有办法排除以"src"开头的任何字词？或者还有其他任何关键字搜索方法可以解决这个问题吗？

Answer 1

我认为您的问题是步骤2，因为您尝试将HTML转换为文字，而requests.get(url).text会返回响应的HTML。

>>> import requests
>>> r = requests.get("http://example.com")
>>> r.text
u'<!doctype html>\n<html>\n<head>\n ..........'

您可以在BeautifulSoup中使用get_text来提取文字。

>>> from bs4 import BeautifulSoup
>>> s = BeautifulSoup(r.text)
>>>s.get_text().replace("\n","")
u'Example Domain ....."