自动检测任意电子商务网站的产品数据Feed?

时间:2010-03-04 19:27:07

标签: e-commerce screen-scraping feeds data-mining google-base

我的网络应用需要访问任意电子商务商店,并确定它是否有产品数据Feed(即Google Base Feed;商店中所有产品的RSS / ATOM Feed)。另外,我需要提取此Feed的位置。

到目前为止,我能想到的最佳解决方案是为给定的电子商务平台维护这些Feed的已知位置的完整列表,并逐一检查它们,当它们返回时将它们从列表中删除404

两个问题:

  1. 你能想到一个更好的方法吗?
  2. 如何生成此已知产品数据Feed位置列表?根据我的经验,它们通常不会公开(与博客RSS提要不同)。
  3. 非常感谢! :)

1 个答案:

答案 0 :(得分:1)

  

您能想到更好的方法吗?

发现Feed的用户搜索引擎API。您可以尝试使用Google,Bing和Yahoo Search API来发现您感兴趣的域上的产品Feed。这可以通过以下方式完成:< / p>

  1. 列出您感兴趣的公共Feed格式(例如Google Base,Shopzilla等)
  2. 检查每个Feed规范,查找您可以搜索的唯一字符串。
  3. 提供返回相关结果的搜索API查询(限制域名,文件类型等)。
  4. 测试您获取产品Feed的链接。
  5. 显然,这假设搜索引擎已找到并编制了索引。

      

    如何生成此已知产品数据Feed位置列表?

    我不相信产品数据Feed的“已知位置”。但是,您可以尝试在算法中包含以下模式:

    • 已经了解的任何Feed中的网址格式。
    • 您猜到的网址格式(将自己置于网站管理员的角度,并考虑他/她将其命名为什么)。
    • 查看常用电子商务软件和产品数据Feed插件的文档,以确定其默认Feed位置。包括他们的网址格式。