在单词袋中搜索单词

时间:2017-11-29 14:16:56

标签: machine-learning python-textprocessing

嗨我正在构建一个文本处理分类器,其中我创建了一个单词我的问题是 - 如果首先给出一个单词作为输入它应该检查单词是否存在于单词包中 我的第二个问题是如何在文件中保存文字袋。

1 个答案:

答案 0 :(得分:1)

假设:

假设您不熟悉编码,

根据您使用的语言,但在C#中...您希望FileReader读取“单词包”中的每个单词,并在它们等于您输入的单词时进行比较。

例如

int counter = 0;  
string line;  
string inputWord;
// Read the file and display it line by line.  
System.IO.StreamReader file =   
new System.IO.StreamReader(@"c:\test.txt");  
while((line = file.ReadLine()) != null)  
{  
    if (inputWord == line)
    {
        System.Console.WriteLine ("Match: "+ line);  
    }
    counter++;  
}  

file.Close();  
System.Console.WriteLine("There were {0} lines.", counter);  
// Suspend the screen.  
System.Console.ReadLine();  

非常类似于写作,但这取决于你是希望你的集合每行一个单词,还是csv(逗号分隔文件),你可以序列化/反序列化。

如果包很小,你可以这么做:     var bagOfWords = new List() 并且只是将它们全部缓存到变量中而不是逐个进行比较。