我正在从事一些数据收集/收集工作,当我从一个网站转到另一个网站时,我不断地发现自己在做类似的事情。因此,我想知道是否有任何方法可以使那些“相似”的东西自动化。
更清楚地说,假设您已获得此计划(这只是一个简单的示例,我的实际用例更加复杂):
url
= example.com username form
passwrod form
submission_button
我们可以看到,无论网站是什么,整个计划都可能保持不变,并且只有某些参数,例如 url ,用户名或密码会改变...是否可以将其转换为离线计划或程序?请注意,传统的Web抓取工具(例如硒,请求,草皮, beautifulSoup )...不起作用我正在寻找的东西(否则,我只是不知道他们是怎么做的!)。
此外,我在尝试构建自己的解决方案时对此进行了挖掘。我的主要想法是将计划转换为有向Acyclique图形( DAG ),因此就是我的帖子的名称。这是我第一次尝试使用networkx将计划转换为 DAG 。任何想法将不胜感激!