我有一个包含英文/意大利文帖子的文本文件。我想将帖子读入数据矩阵,以便每行代表一个帖子,每列代表一个单词。矩阵中的单元格是每个单词在帖子中出现的次数。字典应包含整个文件中的所有单词或非详尽的英语/意大利语字典。
我知道这是NLP常见的必要预处理步骤。而且我知道对它进行编码非常简单,我希望使用一些NLP域特定工具,这样我就可以修剪掉句子等等。
有没有人知道可以执行此任务的工具\项目?
有人提到了apache lucene,你知道lucene索引是否可以序列化为类似于我需要的数据结构?
答案 0 :(得分:2)
也许你想看看GATE。它是文本挖掘和处理的基础设施。这就是GATE所做的(我从网站上得到了这个):
答案 1 :(得分:2)
你想要的是如此简单,以至于在大多数语言中,我建议你使用从字符串映射到整数的散列表数组来推出自己的解决方案。例如,在C#中:
foreach (var post in posts)
{
var row = new Dictionary<string, int>();
foreach (var word in GetWordsFromPost(post))
{
IncrementContentOfRow(row, word);
}
}
// ...
private void IncrementContentOfRow(IDictionary<string, int> row, string word)
{
int oldValue;
if (!row.TryGet(word, out oldValue))
{
oldValue = 0;
}
row[word] = oldValue + 1;
}
答案 2 :(得分:0)
你可以看看:
答案 3 :(得分:0)
感谢@Mikos的评论,我搜索了术语“术语 - 文档矩阵”并找到TMG(文本到矩阵生成器)。
我发现它适合我的需要。