快速找到网页中的元素

时间:2018-10-10 06:10:14

标签: python web-scraping

我正在开发Python代码,以从以下网页中抓取所有菜肴名称的列表:http://housing.ucdavis.edu/dining/menus/dining-commons/tercero/。我具有HTML的工作原理以及如何通过类名查找元素的基本知识,并且已经成功地抓取了一些简单的网页。只是这个站点有很多菜名,每个名字都是可点击的,因此返回的HTML文件非常复杂。在用户选择早餐/午餐/晚餐/深夜之后,有人可以提供一种更简便的方法来获取所有菜肴名称的列表吗?非常感谢你〜

1 个答案:

答案 0 :(得分:0)

鉴于您将其标记为python,我假设您要使用python而不是其他任何语言选项。

我发现使用正则表达式解析机器生成的HTML最简单。由于它是由模板生成的,因此您可以算出模板是什么,并将值作为命名组提取出来。正则表达式是处理文本的强大工具。

使用正则表达式也不需要HTML格式正确(我也看到过)。如果页面有错误,SGML / HTML解析器将不太可能工作。

您可以在python手册https://docs.python.org/3.6/library/re.html

中阅读正则表达式

如果尚未发现请求库,则请求库非常适合提取页面:http://docs.python-requests.org/en/master/