从每个文档的唯一单词/术语访问某些元素

时间:2018-10-05 11:12:01

标签: r tm

this代码将输出作为矩阵给出。但是这里应该避免像is,am, i这样的重复单词。我只想要一个包含cool ,markneo4j的矩阵。我已经尝试过grep("cool",tdm)。它在这里不工作。有其他替代方法吗?

output: tdm
       Docs
Terms   1 2
  am    2 0
  cool  0 2
  i     2 0
  is    0 2
  mark  2 0
  neo4j 0 2

1 个答案:

答案 0 :(得分:1)

基于您的示例的小示例代码。

{
"data": {
    "id": 1,
    "name": "Johns Ltd",
    "primary_color": "18,140,142",
    "secondary_colour": "13,148,5",
    "tertiary_colour": "187,18,162",
    "logo_url": "https://lorempixel.com/640/480/?58550",
    "narrative": "Consequatur veniam consectetur sint blanditiis. Minima fugiat voluptatem aperiam corporis assumenda et consequuntur. Voluptate fugiat nulla eos ut. Itaque vero doloribus ea nihil consequuntur vel. Minus error quos occaecati dignissimos."
},
"status": "success"
}

仅将文档术语矩阵转换为普通矩阵时要小心。如果您有很多文本,那会占用很多内存。

但是看着您的问题,您需要阅读文本挖掘。

这是tidy text-mining

的开头

以下是有关使用quanteda进行文本挖掘的信息

并阅读vignette of tm

当然可以搜索示例。已经以一种或另一种方式回答了很多问题。