Question

我有代码将信息从网页加载到列表U_INSERT中。该网页包含一个表格，表格中的数据我使用pandas

提取

例如包含字符串的3个url地址：

url 1: 
[[55323600, '1234_MB]
,[55323601, '1582_MB]]
url 2: 
[[55323602, '1245_MB]
,[55323603, '1579_MB]]
url 3: 
[[55323602, '1245_MB]
,[55323603, '1579_MB]]

我写了这个，但这不是排除重复行的最佳方法：

RESULTU = []    #contains a list of url-addresses
U_INSERT = []   #data from web pages
for ind,val in enumerate(RESULTU):
    df = pd.read_html(val,header=0)[0]
    df = df.as_matrix().tolist()
    for i in df:
        U_INSERT.append(i)
print (list(set(U_INSERT)))

我正在寻找一种方法来检查该行是否先前已加载到列表U_INSERT中，然后不下载它并转到下一个URL地址。

Answer 1

您可能希望将RESULTU定义为一个集合，以确保没有重复的条目。

在集here

上查看更多内容

在列表中下载之前排除重复行（Python3）

1 个答案: