拉取数据,主要是来自网站的文本

时间:2016-06-28 04:05:30

标签: vb.net

我对编程很新,但我最近钻研了vb.net。我正在研究如何从网站上获取数据,但不完全理解如何或通过什么方式。

我的主要结局游戏是为了缺少更好的单词来提取数据。比方说,一个网站显示文字,我希望能够使用vb.net将该文本提取到我的程序中。这可能吗?

我不知道如何使用javascript,php并且只知道很少的html / css。我当然愿意学习,但我没有多少运气寻找这些特定的信息或解决方案。如果没有访问网站数据库,我的应用程序是否有另一种方式来阅读网站显示的内容并检索此信息?我主要关注的是文本,实际上并不需要其他信息。根据我收集的信息,信息被标记为ID或类?任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

Web服务器基本上有2个操作,POST,即您向网站发送内容,以及GET,即您从网站请求内容。

在大多数情况下,您可以在网站上进行某种GET,它会以数据格式(可能是JSON)返回您的请求。您通常可以在网页本身中根据CSS选择器查找字段。虽然,还有其他方法,一些HTTP库可以以各种格式(主要是JSON和XML)向您返回数据。

我建议在网页上右键点击>查看来源,详细了解他们的结构。至于如何在某些网站上使用javascript进行GET,这段代码会抓住您提供的网址。

function httpGet(theUrl)
{
    var xmlHttp = new XMLHttpRequest();
    xmlHttp.open( "GET", theUrl, false ); //the get request
    xmlHttp.send( null );
    return xmlHttp.responseText; //the website data in XML format.
}