我们可以通过抓取其内容以编程方式确定网站的组件吗?

时间:2012-12-16 23:25:54

标签: artificial-intelligence web-crawler analysis

我们可以通过抓取其内容以编程方式确定网站的组件吗?

我知道这似乎有点不可能,但我认为在代码中一切皆有可能。我正在尝试头脑风暴的想法,如果我已经抓取了它的所有数据,我可以确定网站的各个组成部分!

我对确定组件感兴趣,例如,在电子商务网站的情况下,我想确定或确定: 1.登录URL 2.注册网址 3.仪表板网址 4.添加订单网址 5.购物车网址 6.注销URL 还有更多

我们可能拥有的信息可能是: 1.会话,Cookie,元数据, 2.反向链接(内部和外部) 3.页面中的表单,页面中的字段等

任何想法或指示都会有很大帮助。

1 个答案:

答案 0 :(得分:1)

您可以通过抓取域来获取原始HTML结果。并且您的URL有问题:是的,您可以根据URL和系统的HTML元素确定登录,注册等URL,可以通过一些实验来设计。

从网店开始抓取礼品图片,价格等,这是可行的。我们给了相对点;例如对于价格,如果一个文本包含“价格”它得到2分,如果它包括“$”或“€”它得到3分等我试图说你需要对数据做实验。 你知道,你可以获得表格,Javascript线等,也可以试验这些。

如果您使用java,我建议使用 Crawler4j Apache Nutch 也很好,您可以从我的个人资料中获取有关“使用Nutch保存原始html”的信息,但这是一个非常大的项目,我认为不值得处理所有这些东西,适合你的情况。