在他们的投票规则中非常清楚:
而不是投票: 如果帖子是垃圾邮件或令人反感,请举报。 如果问题是重复或偏离主题,请将其标记为主持人注意。 如果出现问题,请发表评论或编辑帖子进行更正。
编辑:不知道为什么要投票,但我得到了我想要的答案之一。
创建网络抓取工具的最佳技术,语言等等(在查找HTML内部的实际URI / URL方面)?
我考虑并尝试过的事情: - C#Substring方法(字符串操作) - 正则表达式 - Xslt转换/ XPath
这有什么标准吗? 是否已有此库?
还希望能够包含IP地址
答案 0 :(得分:2)
Google c#webcrawler。找到执行此操作的项目:https://github.com/sjdirect/abot
查找描述设计问题并提供实施的文章:https://www.codeproject.com/Articles/1087859/Web-crawling-with-Csharp-part-one
从那里开始应该很好