我被要求在SAS的自由文本文件夹上做NLP。通常我在Python或R中这样做,我不知道如何将他的txt文件导入SAS,因为没有结构。
我考虑过使用proc import但不知道我将用作分隔符。如何将没有结构的自由文本文件导入SAS?我想,一旦我进入,我就可以使用'%like%'的东西来取出他们想要的东西。
答案 0 :(得分:0)
我强烈建议不要这样做。使用正确的工具来完成正确的工作,在这种情况下,它不是SAS。
好的,你可以做一些基础知识: 导入文本文件并创建n克。理想情况下,1,2和3个字。
使用PROC FREQ汇总n-gram。
找到一个词性语料库并合并而不是用1克来删除无用的单词。
计算单词长度和句子长度以创建文档复杂性分数。
这些都在Base中可行。