答案的数据框,如何仅保留前100个答案

时间:2019-02-15 12:19:06

标签: python pandas dataframe

我有一个带有答案的数据框(互联网颜色调查)。数据框是这样的:

我有一个带有答案的数据框(互联网颜色调查)。前五行如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "#">
 
<body>      
  <div dir="RTL">     
  
<ul id="nav" >     
	<li class="current" ><a href="#">Home</a></li>
	<li><a href="#">test </a>  
		<ul>
			<li><a href="#">test  ></a>  
				<ul>
					<li><a href="#">test  2</a></li>
					<li><a href="#">test   3</a></li>
					<li><a href="#">test test test test test  4</a></li>
					<li><a href="#">test  555 Tutorials</a></li>
				</ul> 
			<li><a href="#">test  </a>
				<ul>
					<li><a href="#">Design Job Wall</a></li>
				</ul>
			</li>
			<li><a href="#">IconDock</a></li>
			<li><a href="#">Best Web Gallery</a></li>
		</ul>
	</li>
	<li><a href="#">Multi-Levels</a>
		<ul>
			<li><a href="#">Team</a>
				<ul>
					<li><a href="#">Sub-Level Item</a></li>
					<li><a href="#">Sub-Level Item</a>
						<ul>
							<li><a href="#">Sub-Level Item</a></li>
							<li><a href="#">Sub-Level Item</a></li>
							<li><a href="#">Sub-Level Item</a></li>
						</ul>
					</li>
					<li><a href="#">Sub-Level Item</a></li>
				</ul>
			</li>
			<li><a href="#">Sales</a></li>
			<li><a href="#">Another Link</a></li>
			<li><a href="#">Department</a>
				<ul>
					<li><a href="#">Sub-Level Item</a></li>
					<li><a href="#">Sub-Level Item</a></li>
					<li><a href="#">Sub-Level Item</a></li>
				</ul>
			</li>
		</ul>
	</li>
	<li><a href="#">About</a></li>
	<li><a href="#">Contact Us</a></li>

</ul>
</div>

id  user r   g   b   colorname
0   1    72  100 175 pastel blue
1   2    204 177 246 faint violet
2   3    182 226 245 baby blue
3   4    130 64  234 purple
4   5    275 49  234 blue

data['colorname'].nunique()

我可以看到有181270个唯一答案及其各自的数量。我想从原始数据框中删除所有不在前100名中但git卡在这里的答案。

data.colorname.value_counts() 

1 个答案:

答案 0 :(得分:2)

您可以尝试以下方法吗?

data[data.colorname.isin(data.colorname.value_counts()[:100].index)]