我正在使用x-ray进行网页抓取 被删除的数据存储在数据库中,包括URL URL充当唯一密钥以防止重复数据 但是,相同的网址可能看起来不同:
http://stackoverflow.com/questions/ask
http://stackoverflow.com/questions/ask#element
http://stackoverflow.com/questions/ask/
stackoverflow.com/questions/ask
www.stackoverflow.com/questions/ask
etc.
是否有可能通过X光或某种其他方式检索某种“真实”网址,以使存储的网址看起来始终完全相同?
可能是,有一些正则表达式(js),可以将任何网址带到通用格式?
感谢您的时间!