我正在尝试从网站上搜索结果(没有验证码,简单的无滚动验证,并且我知道roll-no的模式)。问题是他们以表格形式得到结果,许多学生有不同的科目。我到目前为止用Python编写的代码是
for row in rows:
col=row.findAll('td') #BeautifulSoup object
sub=col[1].text.encode('utf-8') #Header.(Subject Names)
subjectname.append((sub))
marks=col[4].text.encode('utf-8')
markall.append((marks))
csvwriter.writerows([subjectname,])
csvwriter.writerows([markall,])
我想生成.csv文件,以便我可以对其进行一些数据分析。现在问题是我想要一个具有特定主题列和标记的表。但是刮刀不知道它是否是一个不同的主题,并且会在该行/列对中附加任何主题的标记。
我该如何处理?
这是问题的直观表示。
因此,如果我在第1栏有主题A,我想仅获得主题A的标记,而不是任何其他主题。我是否需要为所有标记创建列表?
编辑:这是HTML表格标记https://jsfiddle.net/rpmgku7m/