应用错误收集

我想处理像字数统计这样的大文件。

我只有一个工作站，有8个核心和128GB内存。

在Hadoop上使用独立的伪分布式模式或者不使用Hadoop但是研究一下是不是更好？

如果使用Hadoop更好，是否有任何规则可以在一个工作站上决定配置，包括mapper，reducer等的数量？

2014年3月2日

以下是我的硬盘信息：

姓名MAJ：MIN RM SIZE RO TYPE MOUNTPOINT sdc 8:32 0 2.7T 0 disk
├─sdc18：33 0 255M 0部分
├─sdc28：34 0 8G 0部分
├─sdc38：35 0 8G 0部分
├─sdc48：36 0 16G 0部分
│└─md39：3 0 15.3G 0 raid1 / ├─sdc58：37 0 32G 0部分
│└─md1279：127 0 64G 0 raid5 │└─vg01-scratch（dm-0）252：0 0 63.9G 0 lvm / local / scratch ├─sdc68：38 0 64G 0部分
├─sdc78：39 0 128G 0部分
├─sdc88：40 0 256G 0部分
├─sdc98：41 0 1T 0部分
│└─md1259：125 0 2T 0 raid5 │└─vg03-data（dm-1）252：1 0 4T 0 lvm / local / cargobay └─sdc108：42 0 1T 0部分
  └─md1269：126 0 2T 0 raid5     └─vg03-data（dm-1）252：1 0 4T 0 lvm / local / cargobay sda 8：0 0 2.7T 0 disk
├─sda18：1 0 255M 0部分
├─sda28：2 0 8G 0部分
├─sda38：3 0 8G 0部分
├─sda48：4 0 16G 0部分
│└─md39：3 0 15.3G 0 raid1 / ├─sda58：5 0 32G 0部分
│└─md1279：127 0 64G 0 raid5 │└─vg01-scratch（dm-0）252：0 0 63.9G 0 lvm / local / scratch ├─sda68：6 0 64G 0部分
├─sda78：7 0 128G 0部分
├─sda88：8 0 256G 0部分
├─sda98：9 0 1T 0部分
│└─md1259：125 0 2T 0 raid5 │└─vg03-data（dm-1）252：1 0 4T 0 lvm / local / cargobay └─sda108：10 0 1T 0部分
  └─md1269：126 0 2T 0 raid5     └─vg03-data（dm-1）252：1 0 4T 0 lvm / local / cargobay sdb 8:16 0 2.7T 0 disk
├─sdb18:17 0 255M 0部分
├─sdb28：18 0 8G 0部分
├─sdb38：19 0 8G 0部分
├─sdb48：20 0 16G 0部分
│└─md39：3 0 15.3G 0 raid1 / ├─sdb58：21 0 32G 0部分
│└─md1279：127 0 64G 0 raid5 │└─vg01-scratch（dm-0）252：0 0 63.9G 0 lvm / local / scratch ├─sdb68：22 0 64G 0部分
├─sdb78：23 0 128G 0部分
├─sdb88：24 0 256G 0部分
├─sdb98：25 0 1T 0部分
│└─md1259：125 0 2T 0 raid5 │└─vg03-data（dm-1）252：1 0 4T 0 lvm / local / cargobay └─sdb108：26 0 1T 0部分
  └─md1269：126 0 2T 0 raid5     └─vg03-data（dm-1）252：1 0 4T 0 lvm / local / cargobay sr0 11：0 1 1024M 0 rom

非常感谢

是否可以在单个节点上使用Hadoop以获得更高的速度？

3 个答案: