我有代码将信息从网页加载到列表U_INSERT中。 该网页包含一个表格,表格中的数据我使用pandas
提取例如包含字符串的3个url地址:
url 1:
[[55323600, '1234_MB]
,[55323601, '1582_MB]]
url 2:
[[55323602, '1245_MB]
,[55323603, '1579_MB]]
url 3:
[[55323602, '1245_MB]
,[55323603, '1579_MB]]
我写了这个,但这不是排除重复行的最佳方法:
RESULTU = [] #contains a list of url-addresses
U_INSERT = [] #data from web pages
for ind,val in enumerate(RESULTU):
df = pd.read_html(val,header=0)[0]
df = df.as_matrix().tolist()
for i in df:
U_INSERT.append(i)
print (list(set(U_INSERT)))
我正在寻找一种方法来检查该行是否先前已加载到列表U_INSERT中,然后不下载它并转到下一个URL地址。