我想在MATLAB中对文本进行分层凝聚聚类。说,我有四个句子,
I have a pen.
I have a paper.
I have a pencil.
I have a cat.
我想对上面四个句子进行聚类,看哪些更相似。我知道统计工具箱有像pdist
这样的命令来测量成对距离,linkage
来计算聚类相似性等。一个简单的代码如:
X=[1 2; 2 3; 1 4];
Y=pdist(X, 'euclidean');
Z=linkage(Y, 'single');
H=dendrogram(Z)
工作正常并返回树形图。
我想我可以在上面提到的文本上使用这些命令。有什么想法吗 ?
更新
感谢Amro。读取理解并计算字符串之间的距离。代码如下:
clc
S1='I have a pen'; % first String
f_id=fopen('events.txt','r'); %saved strings to compare with
events=textscan(f_id, '%s', 'Delimiter', '\n');
fclose(f_id); %close file.
events=events{1}; % saving the text read.
ii=numel(events); % selects one text randomly.
% store the texts in a cell array
for kk=1:ii
S2=events(kk);
S2=cell2mat(S2);
Z=levenshtein_distance(S1,S2);
X(kk)=Z;
end
我输入一个字符串,我有4个保存的字符串。现在我使用levenshtein_distance
函数计算了成对距离。它返回一个矩阵X=[ 17 0 16 18 16]
。
**我猜这是我的配对距离矩阵。与pdist的相似。是吗?
**现在,我正在尝试输入X来计算链接,如
Z=linkage(X, 'single);
我得到的输出是:
使用==>时出错连接在93尺寸 Y与输出不兼容 PDIST功能。
==>中的错误Untitled2 at 20 Z =连接(X,'单')。
为什么这样?可以使用联动功能吗?帮助赞赏。
更新2
clc
S1='I have a pen';
f_id=fopen('events.txt','r');
events=textscan(f_id, '%s', 'Delimiter', '\n');
fclose(f_id); %close file.
events=events{1}; % saving the text read.
ii=numel(events)+1; % total number of strings in the comparison
D=zeros(ii, ii); % initialized distance matrix;
for kk=1:ii
S2=events(kk);
%S2=cell2mat(S2);
for jk=kk+1:ii
D(kk,jk)= levenshtein_distance(S1{kk},S2{jk});
end
end
D = D + D'; %'# symmetric distance matrix
%# linkage expects the output format to match that of pdist,
%# so we convert D to a row vector (lower/upper part of matrix)
D = squareform(D, 'tovector');
T = linkage(D, 'single');
dendrogram(T).
错误:???单元格内容引用非单元格数组对象。 ==>中的错误22岁的Untitled2 D(kk,jk)= levenshtein_distance(S1 {kk},S2 {jk});
另外,为什么我要从第一个循环内的文件中读取事件?似乎不合逻辑。有点困惑,如果我可以这样工作或只有解决方案是输入代码中的所有字符串。非常感谢。
更新
比较两句话的代码:
clc
str1 = 'Fire in NY';
str2= 'Jeff is sick';
D=levenshtein_distance(str1,str2);
D = D + D'; %'# symmetric distance matrix
%# linkage expects the output format to match that of pdist,
%# so we convert D to a row vector (lower/upper part of matrix)
%D = squareform(D, 'tovector');
T = linkage(D, 'complete');
[H,P] = dendrogram(T,'colorthreshold','default');
输出D = 18。
WITH Different strings:
clc
str1 = 'Fire in NY';
str2= 'NY catches fire';
D=levenshtein_distance(str1,str2);
D = D + D'; %'# symmetric distance matrix
%# linkage expects the output format to match that of pdist,
%# so we convert D to a row vector (lower/upper part of matrix)
%D = squareform(D, 'tovector');
T = linkage(D, 'complete');
[H,P] = dendrogram(T,'colorthreshold','default');
d = 28。
根据距离,完全不同的句子看起来很相似。我正在尝试做的事情,如果我存储 Fire in NY ,我将不会存储 NY catches fire
。但是,对于第一种情况,我会存储,因为信息是新的。
IS LD是否足以做到这一点?帮助赞赏。
答案 0 :(得分:5)
你需要的是一个可以处理字符串的距离函数。查看Levenshtein distance(编辑距离)。那里有很多实现:
或者,您应该提取一些有趣的功能(例如:元音数量,字符串长度等)以构建向量空间表示,然后您可以应用任何常用的距离度量(欧几里德,...)关于新的代表性。
修改强>
您的代码存在的问题是LINKAGE期望输入距离格式与PDIST的格式相匹配,即对应于1-vs-2,1,1-顺序的观察对的行向量vs-3,2-vs-3等。它基本上是完整距离矩阵的下半部分(因为它应该对称为dist(1,2) == dist(2,1)
)
%# instances
str = {'I have a pen.'
'I have a paper.'
'I have a pencil.'
'I have a cat.'};
numStr = numel(str);
%# create and fill upper half only of distance matrix
D = zeros(numStr,numStr);
for i=1:numStr
for j=i+1:numStr
D(i,j) = levenshtein_distance(str{i},str{j});
end
end
D = D + D'; %'# symmetric distance matrix
%# linkage expects the output format to match that of pdist,
%# so we convert D to a row vector (lower/upper part of matrix)
D = squareform(D, 'tovector');
T = linkage(D, 'single');
dendrogram(T)
有关详细信息,请参阅相关功能的文档......