我正在尝试使用BeautifulSoup过滤结果,尽管我更改了过滤的内容,但仍得到相同的输出,包括几百行,如下所示:
var EVENT_ADD_PKG="evtAddPkg";
var EVENT_DELETE_PKG="evtDelPkg";
var EVENT_VIEW_PKG="evtViewPkg";
var EVENT_EDIT_PKG="evtEditPkg";
var EVENT_CHANGE_COMP_FREQ = "changeCompFreq";
var EVENT_CHANGE_COMP_FREQ_VALID_DONE = "changeCompFreqVaidationDone";
var EVENT_CHANGE_COL_DATE = "eventChangeColDate";
var EVENT_CHANGE_START_DATE = "eventStartDate";
var EVENT_DELETE_ALL_PKGS = "deleteAllPkgs";
此页面确实有许多输入字段,我认为这些行是针对这些输入字段的,我确实需要其中一些输入,但是我认为最好先过滤掉它们。
我已经使用Selenium导航到了正确的ajax网页,并且在所有这些行的底部都得到了我想要的正确文本,但是很显然,对于所有这些额外的行,我无法使用此输出。如何过滤掉这些?
这是我现在用来抓取页面的代码:
html = driver.page_source
soup = BeautifulSoup(html, "lxml")
for tag in soup.find_all("td"):
print(tag.text)
任何帮助将不胜感激!