在R中合并庞大的数据文件(用于搜索)

时间:2018-08-18 15:55:24

标签: r database bigdata rsqlite

我正在R 3.5工作,需要创建一个拥有约2亿行的庞大数据库,然后在该数据库中搜索包含约1500万行的文件以查找参考值(然后将这两个文件绑定在一起) :输入文件+匹配文件)。

对于较小的数据库文件(约1000万行),我使用了merge()函数将输入文件与数据库文件合并。但是,这几乎是不可能的。

我尝试了rsqlite软件包,尽管它确实起作用,但我不喜欢它。

专业人士

  • 首先不加载参考数据文件
  • 它不需要任何安装(而不是rsqlite软件包)

缺点

  • 这非常慢(即使在表上创建索引之后)
  • 数据库文件很大(大约10Gb)
  • 绑定输入文件和找到的项并不简单(行号可能不同)

我不想使用SQL Server或MySQL,因为它们都需要安装和配置,并且不适用于所有系统和服务器。

关于大数据匹配的任何建议或类似经验?

0 个答案:

没有答案