artificial-intelligence - 我们可以通过抓取其内容以编程方式确定网站的组件吗？

时间：2012-12-16 23:25:54

标签： artificial-intelligence web-crawler analysis

我们可以通过抓取其内容以编程方式确定网站的组件吗？

我知道这似乎有点不可能，但我认为在代码中一切皆有可能。我正在尝试头脑风暴的想法，如果我已经抓取了它的所有数据，我可以确定网站的各个组成部分！

我对确定组件感兴趣，例如，在电子商务网站的情况下，我想确定或确定： 1.登录URL 2.注册网址 3.仪表板网址 4.添加订单网址 5.购物车网址 6.注销URL 还有更多

我们可能拥有的信息可能是： 1.会话，Cookie，元数据， 2.反向链接（内部和外部） 3.页面中的表单，页面中的字段等

任何想法或指示都会有很大帮助。

答案 0 :(得分：1)

您可以通过抓取域来获取原始HTML结果。并且您的URL有问题：是的，您可以根据URL和系统的HTML元素确定登录，注册等URL，可以通过一些实验来设计。

从网店开始抓取礼品图片，价格等，这是可行的。我们给了相对点;例如对于价格，如果一个文本包含“价格”它得到2分，如果它包括“$”或“€”它得到3分等我试图说你需要对数据做实验。你知道，你可以获得表格，Javascript线等，也可以试验这些。

如果您使用java，我建议使用 Crawler4j 。 Apache Nutch 也很好，您可以从我的个人资料中获取有关“使用Nutch保存原始html”的信息，但这是一个非常大的项目，我认为不值得处理所有这些东西，适合你的情况。