我想查看一个网站是否至少包含多个单词中的一个。我只能找到一个字。当我尝试添加多个单词时,我收到错误。
import requests
url = 'https://www.python.org/'
r = requests.get(url)
html_content = r.text
list = "Calculations" # This works
# list = ("Calculations", "simple") # this would fail
if list in html_content:
print("word exist")
感谢所有帮助过的人。
答案 0 :(得分:0)
解决问题的几种方法:
首先,您可以简单地遍历单词列表并逐个检查。但是,让我们选择更复杂的东西?
使用您从HTML获取的文本。删除标点,删除空格,小写所有内容和所有爵士乐,然后将单词列表转换为集合。我们称之为vocab_set
。幸运的话,你也有自己的word_set
,这是一个包含你想要在html文本中验证的单词的集合。此时您需要做的只是vocab_set & word_set
类型,它会为您提供两个集合的交集,或者网页中存在的单词。
是的,我刚刚为最后一个班轮经历了所有麻烦。
答案 1 :(得分:0)
修改代码的直接方法是:
words = ("Calculations", "simple")
for word in words:
if word in html_content:
print("word exists")
这会一遍又一遍地搜索整个文本,更好地标记化并使用@CaptainMeow在答案中提到的集合交集。