从VBA中的网站源代码中提取特定元素

时间:2015-12-22 14:27:49

标签: html excel vba excel-vba

我正在尝试从网站中提取特定链接,但我无法进入字符串。

源代码的链接是:view-source:delayed expansion这是我正在看的部分:

10003.10006.10004.10002
10003.10006.10005.10001
10003.10006.10005.10010
10003.10006.10005.10011
10003.10006.10005.10012
10003.10006.10005.10013
10003.10006.10005.10002
10003.10006.10007.10001
10003.10006.10007.10010
10003.10006.10007.10011
10003.10006.10007.10002
10003.10006.10007.10003

我想提取子字符串:

<div class="itemName">





      <!-- Yritysnimi -->

        <!-- Aukeaa aina yhteystiedot-vÃ?lilehdelle -->
        <a href="/Tietoliikennepalveluja%2C+tietoliikennelaitteita/Nokia+Oyj/TAMPERE/yhteystiedot/159838" class="resultGray">

我尝试使用browserIE.Document.body.innerText,但它似乎只复制了原始网站上纯文本的部分源代码。

我研究了一些,但我还没有找到合适的解决方案。有些人建议只从源代码中提取一个元素,而其他人则将整个源代码复制到字符串变量中。作为一个不太专业的人,我更喜欢将整个代码拉成一个字符串,因为我觉得这样会更容易理解。

原创网站(芬兰语)http://finder.fi/yrityshaku/Nokia+oyj

非常感谢你提前!

1 个答案:

答案 0 :(得分:0)

这个怎么样:

mydata = read.table("example.txt")
model <- lm(V2~V1+I(V1^2)+I(V1^3)+I(V1^4), data = mydata)