在列表中下载之前排除重复行(Python3)

时间:2018-04-24 14:37:55

标签: python python-3.x

我有代码将信息从网页加载到列表U_INSERT中。 该网页包含一个表格,表格中的数据我使用pandas

提取

例如包含字符串的3个url地址:

url 1: 
[[55323600, '1234_MB]
,[55323601, '1582_MB]]
url 2: 
[[55323602, '1245_MB]
,[55323603, '1579_MB]]
url 3: 
[[55323602, '1245_MB]
,[55323603, '1579_MB]]

我写了这个,但这不是排除重复行的最佳方法:

RESULTU = []    #contains a list of url-addresses
U_INSERT = []   #data from web pages
for ind,val in enumerate(RESULTU):
    df = pd.read_html(val,header=0)[0]
    df = df.as_matrix().tolist()
    for i in df:
        U_INSERT.append(i)
print (list(set(U_INSERT)))        

我正在寻找一种方法来检查该行是否先前已加载到列表U_INSERT中,然后不下载它并转到下一个URL地址。

1 个答案:

答案 0 :(得分:0)

您可能希望将RESULTU定义为一个集合,以确保没有重复的条目。

在集here

上查看更多内容