我正在尝试解析一行并提取Wordnet database中找到的单词 但我不知道怎么做。例如,index.adj文件包含以下行:
abactinal a 1 1 ! 1 0 01665972
abandoned a 2 1 & 2 1 01313004 01317231
abashed a 1 1 & 1 1 00531628
abasic a 1 2 \ + 1 0 02598608
abatable a 1 2 & + 1 0 02288022
abatic a 1 2 \ + 1 0 02598608
abaxial a 1 2 ! ; 1 0 00002312
abbatial a 1 2 \ + 1 0 02598768
abbreviated a 2 1 & 2 1 01436432 01442597
abdicable a 1 2 & + 1 0 02528048
abdominal a 1 2 \ + 1 1 02934594
abdominous a 1 2 & + 1 0 00986457
我正在使用.NET和C#,我尝试过:
Regex regex = new Regex(@"/^(\S+?)[\s%]/");
Match match = regex.Match(line);
我正在寻找用于创建数据挖掘工具的字典数据库。
答案 0 :(得分:1)
此任务不需要正则表达式,因为此输入是一个简单(白色)空格分隔文本。使用此代码:
var txt5 = "abactinal a 1 1 ! 1 0 01665972\r\nabandoned a 2 1 & 2 1 01313004 01317231\r\nabandon v 2 1 & 2 1 01313004 01317231 ";
var dic = new List<KeyValuePair<string, string>>();
var lines = txt5.Split(new string[] {"\r\n"}, StringSplitOptions.RemoveEmptyEntries);
foreach (var line in lines)
{
var cells = line.Split();
switch (cells[1])
{
case "a":
dic.Add(new KeyValuePair<string, string>("adjective", cells[0]));
break;
case "v":
dic.Add(new KeyValuePair<string, string>("verb", cells[0]));
break;
// Add more to cover all POS values
default:
break;
}
}
您可以对其进行调整并进一步开展工作。
输出: