python - 快速找到网页中的元素

快速找到网页中的元素

时间：2018-10-10 06:10:14

标签： python web-scraping

我正在开发Python代码，以从以下网页中抓取所有菜肴名称的列表：http://housing.ucdavis.edu/dining/menus/dining-commons/tercero/。我具有HTML的工作原理以及如何通过类名查找元素的基本知识，并且已经成功地抓取了一些简单的网页。只是这个站点有很多菜名，每个名字都是可点击的，因此返回的HTML文件非常复杂。在用户选择早餐/午餐/晚餐/深夜之后，有人可以提供一种更简便的方法来获取所有菜肴名称的列表吗？非常感谢你〜

1 个答案:

答案 0 :(得分：0)

鉴于您将其标记为python，我假设您要使用python而不是其他任何语言选项。

我发现使用正则表达式解析机器生成的HTML最简单。由于它是由模板生成的，因此您可以算出模板是什么，并将值作为命名组提取出来。正则表达式是处理文本的强大工具。

使用正则表达式也不需要HTML格式正确（我也看到过）。如果页面有错误，SGML / HTML解析器将不太可能工作。

您可以在python手册https://docs.python.org/3.6/library/re.html

中阅读正则表达式

如果尚未发现请求库，则请求库非常适合提取页面：http://docs.python-requests.org/en/master/