标签: java amazon-s3 amazon-ec2 common-crawl hadoop2.7.3
我正在尝试运行一个常见的抓取示例,并从Warc文件中提取URL和电子邮件。我只有一个疑问。我提取的电子邮件是否属于URL或其他网站,这是一个令人困惑的部分 请帮助我。我怎样才能解决这种混乱? 我做的是这样的: 使用WordCount的常见爬网示例,我已将其设置为提取网址然后通过电子邮件发送。提取后,它会将其存储在一个文件中。
这是一个简单的提取逻辑。但我想知道我怎么能相信找到的URL和找到的电子邮件是相互对应的?