我正在开发一个为HTML代码创建标签的程序。该计划的工作方式如下:
requests.get(url).text
我的问题是,在对已经转换为文字的HTML代码执行搜索时,我不能排除任何包含"src = http://...."
的部分,因为它在不同的网站中有所不同。这使得一些关键词变得无关紧要。
在这种情况下,有没有办法排除以"src"
开头的任何字词?或者还有其他任何关键字搜索方法可以解决这个问题吗?
答案 0 :(得分:0)
我认为您的问题是步骤2,因为您尝试将HTML转换为文字,而requests.get(url).text会返回响应的HTML。
>>> import requests
>>> r = requests.get("http://example.com")
>>> r.text
u'<!doctype html>\n<html>\n<head>\n ..........'
您可以在BeautifulSoup
中使用get_text来提取文字。
>>> from bs4 import BeautifulSoup
>>> s = BeautifulSoup(r.text)
>>>s.get_text().replace("\n","")
u'Example Domain ....."