我们如何计算MATLAB中单元格数组中特定字符串的起始和结束索引?

时间:2015-11-16 18:26:40

标签: string matlab duplicates unique cell

假设我们有这个单元格数组:

strings = {'a'; 'a'; 'a'; 'a'; 'a'; 'a'; 'b'; 'b'; 'b'; 'b'; 'm'; 'm'; 'm'; 'm'};

我想要这样的东西作为输出:

a  1    6
b  7    10
m  11   14

数字显示每个唯一字符串的开始和结束索引。但是,这只是一个例子。我的单元格数组有100多个唯一字符串。在MATLAB中这样做的有效方法是什么?

4 个答案:

答案 0 :(得分:4)

unique的输出应该可以为您提供开箱即用的内容:

strings = {'a'; 'a'; 'a'; 'a'; 'a'; 'a'; 'b'; 'b'; 'b'; 'b'; 'm'; 'm'; 'm'; 'm'};
[uniquestrings, start, bin] = unique(strings);

其中:

uniquestrings = 

    'a'    'b'    'm'


start =

     1     7    11


bin =

     1     1     1     1     1     1     2     2     2     2     3     3     3     3

虽然这对所提供的数据很有效,但我很想看到一个更“真实”的代表性数据集,可能会使该函数更通用。

答案 1 :(得分:3)

unique开始,将您的数据映射到索引:

[~,~,ix]=unique(strings);
d=[];
%calculate end indices
d(:,2)=[find(diff(ix));numel(ix)]
%calculate start indices
d(:,1)=[1;d(1:end-1,2)+1]
%corresponding chars:
e=strings(d(:,1))

输出是:

d =

     1     6
     7    10
    11    14


e = 

    'a'
    'b'
    'm'

答案 2 :(得分:2)

假设您的字符串是以连续的字符串运行方式填充的,并且运行唯一的时间您将看到特定的唯一字符串,您可以将其与{ {3}}和unique。首先,使用unique获取所有唯一字符串的列表,然后为每个字符串分配一个唯一ID,从1到尽可能多的唯一字符串。 unique的内容是,一旦排序字符串,就会分配ID。您不想这样做是因为您希望按原样使用字符串的位置来确定其运行的起始位置和结束位置。因此,您需要使用'stable'标志。您需要第一个输出,它为您提供数组中的唯一字符串(以后)和第三个输出以获取此新ID分配:

strings = {'a'; 'a'; 'a'; 'a'; 'a'; 'a'; 'b'; 'b'; 'b'; 'b'; 'm'; 'm'; 'm'; 'm'};
[s,~,id] = unique(strings, 'stable');

现在您已经拥有此功能,请使用accumarray以便您可以获取每个ID并将它们组合在一起。在这种情况下,您将要使用与每个唯一字符串关联的位置编号,并且您希望将属于同一个字符ID的所有位置编号一起存储在一起。一旦你这样做,我们就可以输出一个元素的单元格数组,其中每个元素都是一个双元素向量,它给你每次运行的最小和最大位置。

out = accumarray(id, (1:numel(strings)).', [], @(x) {[min(x), max(x)]});

然后,您可以在一个漂亮的表中显示它:

T = table(s, vertcat(out{:}), 'VariableNames', {'Letter', 'BeginEnd'});

我们得到:

T = 

    Letter    BeginEnd
    ______    ________

    'a'        1     6
    'b'        7    10
    'm'       11    14

但是,如果要获取矩阵中的第一个和最后一个元素,只需执行:

ind = vertcat(out{:});

第一列为您提供每个角色的起始位置,第二列为您提供每个角色的结束位置。

答案 3 :(得分:2)

使用unique的另一种方法:

strings = {'a'; 'a'; 'a'; 'a'; 'a'; 'a'; 'b'; 'b'; 'b'; 'b'; 'm'; 'm'; 'm'; 'm'};
[u, l] = unique(strings, 'last');
[~, f] = unique(strings, 'first');

这给出了

u = 
    'a'
    'b'
    'm'
f =
     1
     7
    11
l =
     6
    10
    14

或者您可以在单元格数组中连接结果

result = [u num2cell([f l])]

生产

result = 
    'a'    [ 1]    [ 6]
    'b'    [ 7]    [10]
    'm'    [11]    [14]