如何使用django删除网站

时间:2018-11-02 13:44:57

标签: javascript python html django web-scraping

我想创建一个机器人来抓取具有以下地址的网站:

https://1xxpers100.mobi/en/line/

但是问题是,当我想从该网站获取数据时 我意识到该网站正在使用django,因为他们正在使用 {{if group_name}}等短语

使用这种方法创建了一个循环,并创建了表行和 我想要的信息在那里。

当我使用python并下载无法找到的html代码时 那里没有“ {{code}}”以外的任何内容,但是当我使用chrome开发人员工具(检查)以及使用控制台时,我可以看到想要的表内的内容

如何获取保存该表格内容的html代码(例如chrome工具) 从该网站获取我想要的信息?

我获取代码的方法是使用python:

import urllib.request

fp = urllib.request.urlopen("https://1xxpers100.mobi/en/line/")
mybytes = fp.read()

mystr = mybytes.decode("utf8")
fp.close()

1 个答案:

答案 0 :(得分:1)

这应该可以满足您的需求:

import requests
from bs4 import BeautifulSoup

r = requests.get('https://1xxpers100.mobi/en/line/')
soup = BeautifulSoup(r.content, 'lxml')

print(soup.encode("utf-8"))

这里使用'lmxl'是因为它适用于我对其进行测试的网站。如果您对此有疑问,请尝试另一个解析器。

另一个问题是默认情况下无法识别该字符。因此请使用soup

阅读utf-8的内容

其他信息

这与django无关。 HTML具有所谓的“树”状结构。其中每组标签是紧靠其内部的所有子标签的父级。您只是对树的阅读不够深。

HTML