我想创建一个具有以下结构的嵌套字典,以便我可以轻松按国家和url_type计算唯一的URL数量。
字典结构:.now()
我的输入是国家列表和索引对齐的URL列表。
我有一个父级{'country': 'url_category': [list of urls]}.
,该父级使用一个名为for-loop
的列表,其中每个元素都是新国家的起始索引。然后,我使用索引循环遍历URL,以切片正确的URL。然后,我有三个for循环来对URL进行分类,并将URL添加到字典中的正确键中。
position
在这种方法中,所有键的值都反映了要通过循环的最后一个国家。我不知道为什么这种方法会更新每个密钥,而不是更新对应于一个国家的密钥for i in position:
j += 1
if j > 7:
break
g = (position[j])-1
#url lists which are used in the dictionary.
sexy_urls = []
gay_urls = []
gambling_urls = []
#Loop to do url categorization.
for x in test_urls[i:g]:
for y in sexy_words:
if y in x:
sexy_urls.append(x)
d[test_urls_cc[i]]['sexy'] = sexy_urls
for y in gay_words:
if y in x:
gay_urls.append(x)
d[test_urls_cc[i]]['gay'] = gay_urls
for y in gambling_words:
if y in x:
gambling_urls.append(x)
d[test_urls_cc[i]]['gambling'] = gambling_urls
。
输入:
test_urls_cc[i]
[0, 1000, 2000, 2365, 2471, 3471, 4095, 5095]
['www.porn.com','www.gambling.com','www.gay.com']