使用Node JS废弃Websphere网站

时间:2018-07-04 12:15:32

标签: node.js web-scraping web-crawler websphere

我是在Websphere上创建的网站。

我看到每当用户登录时,它都会在到达首页时命中4个URL。

在第三个URL中,它具有一些类似于以下内容的加密值

 L0lDU0NTSUpKZ2tLQ2xFS0NXXXXXXXXXXXXXXXXXXX..XXXXXXXXXvZD1vbkxvYWQ!

URL看起来像这样:

   http://example.com/escares/wps/myportal/!ut/p/c1/XXXXXXXXXX/dl2/d1/L0lDU0NTSUpKZ2tLQ2xFS0NXXXXXXXXXXXXXXXXXXX..XXXXXXXXXvZD1vbkxvYWQ!

问题是,我注意到每次登录都只会更改加密值。

Websphere中是否有任何算法可以生成这种url?还是有什么办法可以复制此加密值?

有没有人在 websphere 网站上进行过抓取/抓取

2 个答案:

答案 0 :(得分:1)

wps / myportal建议使用Websphere web portal login。您看到的“加密” URI很可能是用于维护用户登录会话的哈希。

复制此内容的最佳方法是访问supply your web scraping program with a username and password,以访问网站的门户部分,以便它可以在抓取时发布登录信息。网站本身将生成会话信息。您将需要指示您的抓取应用程序遵循生成的任何动态URL。通常,这是通过登录后遵循服务器提供的HTML中的任何URL来完成的。

例如,在进行抓取时,可以将scrapy配置为遵循目标页面中的所有URL:

https://doc.scrapy.org/en/latest/intro/tutorial.html#following-links

尽管您正在使用自己的解决方案来为已登录的用户抓取门户的内容,但希望我的示例中说明的逻辑和进展有助于引导您朝着正确的方向解决似乎是会话/ cookie存储的问题问题。

答案 1 :(得分:1)

尽管克里斯回答了这个问题,但对我有帮助。

此行

通常,这是通过登录后遵循服务器提供的HTML中的任何URL来完成的。

只想用Node js更新。请求模块和cheerio可以通过解析Node JS中的html(作为响应)来实现相同的目的。

P.S。 :如果有人在寻找我找到该动态网址的位置,我会以HTML格式找到它,以回应我。这就是这种形式的作用。