我正在编写一个功能,该功能会抓取基本网址中的所有网址并阅读每个网页的html内容,并会搜索“form
”代码到findout
{ {1}}页面login
,并且应该应用凭据来继续对经过身份验证的网页进行抓取。
到目前为止,我可以阅读每个页面的html内容,并获得表格属性,如方法(即发布/获取)和操作。
现在,我想检查“url
”标记内部是否有任何“form
”标记,以获取名称等属性以应用凭据,并触发提交按钮。
如果我使用
input
我将从页面获取所有输入标签。
但是我只需要从表单标签中获取输入标签。
提前致谢。
答案 0 :(得分:0)
使用simple dom parser
来执行此操作,selector
与jquery
的工作方式相同,这将有助于您在input
旁边获取form
元素