我正在寻找一些有关如何查找字符串可能有多个变体的字符串的可能版本的提示。
一个简单的例子: “澳门”是首字母。字符'a'具有变体'ä',字符'o'具有变体'ö'。
目标是从以上信息中获取以下列表:
Macao
Mäcao
Macäo
Mäcäo
Macaö
Mäcaö
Macäö
Mäcäö
到目前为止,我的方法是识别和提取带有变体的字符以简化操作。我们的想法是处理各自的字符而不是整个字。
aao
äao
aäo
ääo
aaö
äaö
aäö
ääö
以下代码查找我们正在使用的变体。
std::vector<std::string> variants;
variants.push_back("aä");
variants.push_back("oö");
std::string word = "Macao";
std::vector<std::string> results;
for (auto &variant : variants) {
for (auto &character : word) {
if (variant.front() == character) {
results.push_back(variant);
}
}
}
std::cout << "The following characters have variants: ";
for (auto &i : results) {
std::cout << i.front();
}
std::cout << std::endl;
下一步是找到各个字符的所有可能组合。为此,我写了以下函数。它在results
中的每个字符串的第一个字符中创建一个新字符串。
std::string read_results(std::vector<std::string> &results)
{
std::string s;
for (auto &c : results) {
s.push_back(c.front());
}
return s;
}
我们的想法是改变存储在results
中的字符串,以便获得所有可能的组合,这就是我被困的地方。我注意到std::rotate
似乎会有所帮助。
答案 0 :(得分:0)
反向索引可能很有用。
您可以按顺序存储矢量中包含多个变体的所有字母,并为每个字母存储具有分组索引的矢量,以便第i个字母属于组I[i]
,并且索引与I[i]
相同的字母是来自同一字母的变体:
string L = "aoäöâô"; // disclaimer: i don't know if this is really in order
unsigned int I[] = {0,1,0,1,0,1};
// this means that "aäâ" belong to group 0, and "oöô" belong to group 1
您可以使用以下内容为之前的L
和I
构建倒排索引:
vector<vector<unsigned int> > groups;
// groups[k] stores the indices in L of the letters that belongs to the k-th group.
// do groups.reserve to make this operation more efficient
for(size_t i = 0; i < L.size(); ++i)
{
unsigned int idx = I[i];
if(idx <= groups.size()) groups.resize(idx+1);
groups[idx].push_back(i);
}
L
中的字母顺序排列非常重要,因此您可以稍后对其进行二元搜索,这需要O(logn)
而不是常规循环的O(n)
。然后,一旦你有了你的信件组,就可以找到带有倒排索引的变体:
char letter = 'a';
string::iterator it = std::lower_bound(L.begin(), L.end(), letter);
if(it != L.end() && *it == letter)
{
unsigned int idx = I[ it - L.begin() ];
// the letter has variants because it belongs to group idx
const vector<unsigned int>& group = groups[idx];
for(vector<unsigned int>::const_iterator git = group.begin();
git != group.end(); ++git)
{
// now, L[*git] is one of the variants of letter
...
}
}