导入自由文本文件

时间:2017-06-07 17:45:27

标签: import sas nlp

我被要求在SAS的自由文本文件夹上做NLP。通常我在Python或R中这样做,我不知道如何将他的txt文件导入SAS,因为没有结构。

我考虑过使用proc import但不知道我将用作分隔符。如何将没有结构的自由文本文件导入SAS?我想,一旦我进入,我就可以使用'%like%'的东西来取出他们想要的东西。

1 个答案:

答案 0 :(得分:0)

我强烈建议不要这样做。使用正确的工具来完成正确的工作,在这种情况下,它不是SAS。

好的,你可以做一些基础知识: 导入文本文件并创建n克。理想情况下,1,2和3个字。

使用PROC FREQ汇总n-gram。

找到一个词性语料库并合并而不是用1克来删除无用的单词。

计算单词长度和句子长度以创建文档复杂性分数。

这些都在Base中可行。