我创建了一个社交媒体帖子语料库,并希望使用正式语言来描述该语料库,但是我不确定它是否可能。
例如,如果我通过在每个帖子中搜索某个单词列表来下载所有与蛋糕相关的社交媒体帖子,并且如果该帖子包含其中一个单词,则将其添加。可以使用形式语言来描述这个语料库吗?或者有更好的方法吗?
按照以下方式做事:
Σ=(所有帖子), a =(与蛋糕有关的帖子)
我们的主体=Σ-!a
我敢肯定,我读过一些研究,他们使用某种形式的语言描述了文本语料库,但我不记得它是什么或如何写的。有人可以帮我指出正确的方向吗?