我正在尝试为Bloomberg Businessweek创建一个XML Sitemap,特别是所有以以下内容开头的网页:
http://investing.businessweek.com/research/stocks/private/snapshot.asp?privcapId=
我的理解是,大约有150万个页面以此前缀开头。甚至可以为这么多页面创建XML Sitemap吗?
答案 0 :(得分:0)
是的,这是可能的。这只是编写爬虫的问题(如果您无法访问带有内容的数据库)和xml文件的生成。 (不要使用基于DOM的XML api,因为大文件的内存消耗量。)
但是你想用min 100 MB
大小的文件做什么呢[1]。
我认为这个文件根本不会有用。
1)解释:
1.500.000 pages * (length of URL + 100 Bytes XML overhead)