我想创建一个机器人来抓取具有以下地址的网站:
https://1xxpers100.mobi/en/line/
但是问题是,当我想从该网站获取数据时 我意识到该网站正在使用django,因为他们正在使用 {{if group_name}}等短语
使用这种方法创建了一个循环,并创建了表行和 我想要的信息在那里。
当我使用python并下载无法找到的html代码时 那里没有“ {{code}}”以外的任何内容,但是当我使用chrome开发人员工具(检查)以及使用控制台时,我可以看到想要的表内的内容
如何获取保存该表格内容的html代码(例如chrome工具) 从该网站获取我想要的信息?
我获取代码的方法是使用python:
import urllib.request
fp = urllib.request.urlopen("https://1xxpers100.mobi/en/line/")
mybytes = fp.read()
mystr = mybytes.decode("utf8")
fp.close()
答案 0 :(得分:1)
这应该可以满足您的需求:
import requests
from bs4 import BeautifulSoup
r = requests.get('https://1xxpers100.mobi/en/line/')
soup = BeautifulSoup(r.content, 'lxml')
print(soup.encode("utf-8"))
这里使用'lmxl'
是因为它适用于我对其进行测试的网站。如果您对此有疑问,请尝试另一个解析器。
另一个问题是默认情况下无法识别该字符。因此请使用soup
utf-8
的内容
其他信息
这与django无关。 HTML具有所谓的“树”状结构。其中每组标签是紧靠其内部的所有子标签的父级。您只是对树的阅读不够深。