Question

我正在使用Python进行一些文本分析工作。不幸的是，我需要切换到R才能使用特定的软件包（遗憾的是，软件包无法轻松地在Python中复制）。

目前，文本被解析为二元组计数，缩减为大约11,000个双字母组的词汇，然后存储为字典：

{id1: {'bigrams':[(bigram1, count), (bigram2, count), ...]},
id2: {'bigrams': ...}

我需要将它放入R中的dgCMatrix中，其中行是id1，id2，...并且列是不同的双字母组合，以便单元格表示该id-bigram的“计数”。

有什么建议吗？我想把它扩展到一个巨大的CSV，但这似乎超级低效加上由于内存限制可能不可行。

Answer 1

您能否使用scipy mmwrite以MatrixMarket格式写出矩阵，然后使用readMM包中的Matrix将其读入R？