我有一个包含三列和n行的数据集。第1列包含name,第2列value1和第3列value2(rank2)。
我想用显示名称的异常值绘制散点图。
我使用的R
命令是:
tiff('scatterplot.tiff')
data<-read.table("scatterplot_data", header=T)
attach(data)
reg1<-lm(A~B)
plot(A,B,col="red")
abline(reg1)
outliers<-data[which(2^(data[,2]-data[,3]) >= 4 | 2^(data[,2]-data[,3]) <=0.25),]
text(outliers[,2], outliers[,3],labels=outliers[,1],cex=0.50)
dev.off()
我得到一个这样的数字:
我想要的是下半部分的标签应该是一种颜色而上半部分的标签应该是另一种颜色分别是绿色和红色。
命令中的任何建议或调整?
答案 0 :(得分:5)
您已经有一个令您满意的逻辑测试。只需在颜色规范中使用它来发短信:
text(outliers[,2], outliers[,3],labels=outliers[,1],cex=0.50,
col=c("blue", "green")[
which(2^(data[,2]-data[,3]) >= 4 , 2^(data[,2]-data[,3]) <=0.25)] )
当然没有经过测试,因为你没有提供测试用例,但我的理由是which()
函数应该返回1表示差异&gt; = 4,而2表示为&lt; = 0.25和整数( 0)对于所有其他人而言,这应该为您提供颜色选择与“异常值”向量的正确对齐。
答案 1 :(得分:4)
使用python,matplotlib
(pylab)进行绘图,使用scipy
,numpy
来拟合数据。 numpy
的技巧是创建索引或掩码来过滤掉你想要的结果。
编辑:想要选择性地为顶部和底部异常值着色?这是我们创建的两个面具的简单组合:
import scipy as sci
import numpy as np
import pylab as plt
# Create some data
N = 1000
X = np.random.normal(5,1,size=N)
Y = X + np.random.normal(0,5.5,size=N)/np.random.normal(5,.1)
NAMES = ["foo"]*1000 # Customize names here
# Fit a polynomial
(a,b)=sci.polyfit(X,Y,1)
# Find all points above the line
idx = (X*a + b) < Y
# Scatter according to that index
plt.scatter(X[idx],Y[idx], color='r')
plt.scatter(X[~idx],Y[~idx], color='g')
# Find top 10 outliers
err = ((X*a+b) - Y) ** 2
idx_L = np.argsort(err)[-10:]
for i in idx_L:
plt.text(X[i], Y[i], NAMES[i])
# Color the outliers purple or black
top = idx_L[idx[idx_L]]
bot = idx_L[~idx[idx_L]]
plt.scatter(X[top],Y[top], color='purple')
plt.scatter(X[bot],Y[bot], color='black')
XF = np.linspace(0,10,1000)
plt.plot(XF, XF*a + b, 'k--')
plt.axis('tight')
plt.show()