如何使用熊猫计算有多少不同的网址

时间:2017-06-21 03:44:17

标签: pandas

enter image description here

如何分隔和计算有多少与众不同的com.XXXXX.XXX。或者我如何将其变为可读数据框,并将所有可能的com.XXXXX.XXX作为标题,如果没有条目则将其表示为0

现在txt采用这种格式 enter image description here

1 个答案:

答案 0 :(得分:0)

我不确定我理解你。您想首先将com.XXXX.XXX形式的网址与其他网址分开,然后计算您有多少不同的网址?假设url列的名称为urls,那么单行应该就足够了,就像这样:

len(trainN_df[trainN_df["url"].str.contains("^com\.")].replace("^com\.","",regex=True).drop_duplicates())