Question

我想创建一个机器人来抓取具有以下地址的网站：

但是问题是，当我想从该网站获取数据时我意识到该网站正在使用django，因为他们正在使用 {{if group_name}}等短语

使用这种方法创建了一个循环，并创建了表行和我想要的信息在那里。

当我使用python并下载无法找到的html代码时那里没有“ {{code}}”以外的任何内容，但是当我使用chrome开发人员工具（检查）以及使用控制台时，我可以看到想要的表内的内容

如何获取保存该表格内容的html代码（例如chrome工具）从该网站获取我想要的信息？

我获取代码的方法是使用python：

import urllib.request

fp = urllib.request.urlopen("https://1xxpers100.mobi/en/line/")
mybytes = fp.read()

mystr = mybytes.decode("utf8")
fp.close()

Answer 1

这应该可以满足您的需求：

import requests
from bs4 import BeautifulSoup

r = requests.get('https://1xxpers100.mobi/en/line/')
soup = BeautifulSoup(r.content, 'lxml')

print(soup.encode("utf-8"))

这里使用'lmxl'是因为它适用于我对其进行测试的网站。如果您对此有疑问，请尝试另一个解析器。

另一个问题是默认情况下无法识别该字符。因此请使用soup

阅读utf-8的内容

其他信息

这与django无关。 HTML具有所谓的“树”状结构。其中每组标签是紧靠其内部的所有子标签的父级。您只是对树的阅读不够深。

如何使用django删除网站

1 个答案: