this代码将输出作为矩阵给出。但是这里应该避免像is,am, i
这样的重复单词。我只想要一个包含cool ,mark
和neo4j
的矩阵。我已经尝试过grep("cool",tdm)
。它在这里不工作。有其他替代方法吗?
output: tdm
Docs
Terms 1 2
am 2 0
cool 0 2
i 2 0
is 0 2
mark 2 0
neo4j 0 2
答案 0 :(得分:1)
基于您的示例的小示例代码。
{
"data": {
"id": 1,
"name": "Johns Ltd",
"primary_color": "18,140,142",
"secondary_colour": "13,148,5",
"tertiary_colour": "187,18,162",
"logo_url": "https://lorempixel.com/640/480/?58550",
"narrative": "Consequatur veniam consectetur sint blanditiis. Minima fugiat voluptatem aperiam corporis assumenda et consequuntur. Voluptate fugiat nulla eos ut. Itaque vero doloribus ea nihil consequuntur vel. Minus error quos occaecati dignissimos."
},
"status": "success"
}
仅将文档术语矩阵转换为普通矩阵时要小心。如果您有很多文本,那会占用很多内存。
但是看着您的问题,您需要阅读文本挖掘。
的开头以下是有关使用quanteda进行文本挖掘的信息
当然可以搜索示例。已经以一种或另一种方式回答了很多问题。