我想处理像字数统计这样的大文件。
我只有一个工作站,有8个核心和128GB内存。
在Hadoop上使用独立的伪分布式模式或者不使用Hadoop但是研究一下是不是更好?
如果使用Hadoop更好,是否有任何规则可以在一个工作站上决定配置,包括mapper,reducer等的数量?
2014年3月2日
以下是我的硬盘信息:
姓名MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sdc 8:32 0 2.7T 0 disk
├─sdc18:33 0 255M 0部分
├─sdc28:34 0 8G 0部分
├─sdc38:35 0 8G 0部分
├─sdc48:36 0 16G 0部分
│└─md39:3 0 15.3G 0 raid1 /
├─sdc58:37 0 32G 0部分
│└─md1279:127 0 64G 0 raid5
│└─vg01-scratch(dm-0)252:0 0 63.9G 0 lvm / local / scratch
├─sdc68:38 0 64G 0部分
├─sdc78:39 0 128G 0部分
├─sdc88:40 0 256G 0部分
├─sdc98:41 0 1T 0部分
│└─md1259:125 0 2T 0 raid5
│└─vg03-data(dm-1)252:1 0 4T 0 lvm / local / cargobay
└─sdc108:42 0 1T 0部分
└─md1269:126 0 2T 0 raid5
└─vg03-data(dm-1)252:1 0 4T 0 lvm / local / cargobay
sda 8:0 0 2.7T 0 disk
├─sda18:1 0 255M 0部分
├─sda28:2 0 8G 0部分
├─sda38:3 0 8G 0部分
├─sda48:4 0 16G 0部分
│└─md39:3 0 15.3G 0 raid1 /
├─sda58:5 0 32G 0部分
│└─md1279:127 0 64G 0 raid5
│└─vg01-scratch(dm-0)252:0 0 63.9G 0 lvm / local / scratch
├─sda68:6 0 64G 0部分
├─sda78:7 0 128G 0部分
├─sda88:8 0 256G 0部分
├─sda98:9 0 1T 0部分
│└─md1259:125 0 2T 0 raid5
│└─vg03-data(dm-1)252:1 0 4T 0 lvm / local / cargobay
└─sda108:10 0 1T 0部分
└─md1269:126 0 2T 0 raid5
└─vg03-data(dm-1)252:1 0 4T 0 lvm / local / cargobay
sdb 8:16 0 2.7T 0 disk
├─sdb18:17 0 255M 0部分
├─sdb28:18 0 8G 0部分
├─sdb38:19 0 8G 0部分
├─sdb48:20 0 16G 0部分
│└─md39:3 0 15.3G 0 raid1 /
├─sdb58:21 0 32G 0部分
│└─md1279:127 0 64G 0 raid5
│└─vg01-scratch(dm-0)252:0 0 63.9G 0 lvm / local / scratch
├─sdb68:22 0 64G 0部分
├─sdb78:23 0 128G 0部分
├─sdb88:24 0 256G 0部分
├─sdb98:25 0 1T 0部分
│└─md1259:125 0 2T 0 raid5
│└─vg03-data(dm-1)252:1 0 4T 0 lvm / local / cargobay
└─sdb108:26 0 1T 0部分
└─md1269:126 0 2T 0 raid5
└─vg03-data(dm-1)252:1 0 4T 0 lvm / local / cargobay
sr0 11:0 1 1024M 0 rom
非常感谢
答案 0 :(得分:1)
Hadoop可能会节省一些开发时间,因为您可以使用PIG或SQL(Hive)等脚本来进行处理。但它绝对不是获得单节点并行化的最有效方式 - 从运行hadoop进程的所有开销开始,hadoop并行化是基于多进程而不是多线程的事实,大多数Hadoop技术(并非所有)都是磁盘导向而不是内存等。
Hadoop旨在解决大数据问题而不是本地单机问题
答案 1 :(得分:0)
在此机器上使用至少8个硬盘进行HDFS之前,Hadoop不会给您带来任何好处。
答案 2 :(得分:0)
单节点集群上的Hadoop将无法提供真正的hadoop功能,因为你需要至少一个2 - 3系统的小网格来获得hadoop的真正功能。单节点hadoop集群仅适用于学习目的,但实时至少具有2-3个系统的网格。