Question

我仍然是统计数据的新手，并且在找到包含19000和18000行的两个数据集之间存在负匹配方面存在问题。我试过了

diff -u file1 file2

在unix中但diff使用了一些缩短的语法，因此行数不准确。我也试过

grep -v file1 file2

但是它将从file2返回所有行。我使用R和unix，所以任何帮助都很好！让我们说我的数据如下：

File1   a b c d f g h i  
File2   a b c e f g j k

我想得到的是一个如下所示的列表：

d 
e
h
j
i
k

Answer 1

你可以尝试：

setdiff(c(File1, File2), intersect(File1,File2))
[1] "d" "h" "i" "e" "j" "k"

Answer 2

寻找独特的线条

sort file1 file2 | uniq -u