Hadoop:只阅读“英文”页面

时间:2014-01-08 16:36:42

标签: php hadoop amazon-s3 web-crawler hadoop-streaming

我正在尝试阅读Common Crawl中的“英语”网页。我正在Amazon界面中运行这些Hadoop个工作。请看下面的代码,那就是Mapper部分。我没有减速机。

#!/usr/bin/php
<?php

$word2count = array();
$counter = 0;
$closeit = false;

while (($closeit == false)&& (($line = fgets(STDIN)) !== false)) {
    $counter++;
   $line = strtolower(trim($line));
   echo "$line\n";
    if($counter > 100)
    {
    $closeit = true;
    }
}

   echo "mapper1\n";


?>

在这里,此代码将读取文章的前100行。如何更改此内容,以便只阅读“英文”文章?除此之外,我应该使用哪个数据集?

请帮忙。

1 个答案:

答案 0 :(得分:0)

您可以在阅读一行或一些行后使用语言检测器。下面是一些描述如何在PHP中执行此操作的代码:http://phpir.com/language-detection-with-n-grams它已经配置为检测某些语言,包括英语。