java - 常见的爬行示例有疑虑

我正在尝试运行一个常见的抓取示例，并从Warc文件中提取URL和电子邮件。我只有一个疑问。我提取的电子邮件是否属于URL或其他网站，这是一个令人困惑的部分请帮助我。我怎样才能解决这种混乱？我做的是这样的：使用WordCount的常见爬网示例，我已将其设置为提取网址然后通过电子邮件发送。提取后，它会将其存储在一个文件中。

这是一个简单的提取逻辑。但我想知道我怎么能相信找到的URL和找到的电子邮件是相互对应的？

常见的爬行示例有疑虑

0 个答案: