我有一个数据集,我希望用matplotlib作为散点图,以及一个相同大小的数据,用于对数据点进行分类和标记(离散地,例如从0到3)。我想为不同的标签使用不同的标记(例如,'x'代表0,'o'代表1,依此类推)。我怎样才能优雅地解决这个问题?我很确定我只是错过了某些东西,但是并没有真正找到它,而且我的天真方法到目前为止都失败了......
答案 0 :(得分:8)
如何迭代这样的所有标记:
import numpy as np
import matplotlib.pyplot as plt
x = np.random.rand(100)
y = np.random.rand(100)
category = np.random.random_integers(0, 3, 100)
markers = ['s', 'o', 'h', '+']
for k, m in enumerate(markers):
i = (category == k)
plt.scatter(x[i], y[i], marker=m)
plt.show()
答案 1 :(得分:0)
Matplotlib 不接受每个图不同的标记。
但是,对于大型数据集,使用 pandas
和 seaborn
库的一种更简洁、更可靠的解决方案是:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
x = [48.959, 49.758, 49.887, 50.593, 50.683 ]
y = [122.310, 121.29, 120.525, 120.252, 119.509]
z = [136.993, 133.128, 143.710, 129.088, 139.860]
kmean = np.array([0, 1, 0, 2, 2])
df = pd.DataFrame({'x':x,'y':y,'z':z, 'km_z':kmean})
sns.scatterplot(data = df, x='x', y='y', hue='km_z', style='km_z')
产生以下输出
此外,您可以使用 pandas.cut
函数绘制 bin(这是我经常需要生成的图表,我可以使用第三个连续值作为参数)。使用方法是:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
x = [48.959, 49.758, 49.887, 50.593, 50.683 ]
y = [122.310, 121.29, 120.525, 120.252, 119.509]
z = [136.993, 133.128, 143.710, 129.088, 139.860]
df = pd.DataFrame({'x':x,'y':y,'z':z})
df['bins'] = pd.cut(df.z, bins=3)
sns.scatterplot(data = df, x='x', y='y', hue='bins', style='bins')
并生成以下示例:
我使用后一种方法生成如下图: