我正在使用Python中的Beautiful Soup从静态页面中删除数据(它没有改变)。但是当我解析所需的信息(用户名)并存储在db中时,我发现一些用户名丢失,而一些用户名重复。这不会永远发生。我不明白为什么会这样。大约有25页,每页有100个用户名。这是整个代码的结构。
url = "someurl.com" for id in 1 to 25 page=urllib2.urlopen(url + str(id)) soup=BeautifulSoup(page.read()) #parse and make data to insert here for all usernames in page sql = "create table if not exists table" cursor.execute(sql) sql = "insert into table username" cursor.execute(sql) db.commit()
这是粗略的代码。表中有大约2500-3000个用户名。并且重复大约20个,即没有用户名=“XYZ”,而用户名=“ABC”重复两次。
有人能说明为什么会发生这种情况吗?