情况:我发现很难从网站上提取特定文字。
iMacros网站(http://wiki.imacros.net/Data_Extraction#Data_Extraction_and_Web_Scraping)上的模板示例 从iMacros中提取变量如下:
TAG POS=1 TYPE=SPAN ATTR=CLASS:bdytxt&&TXT:* EXTRACT=HTM
但是,在下面的html代码中,特定元素<a href="..." target="_blank">text1</a>
没有要在ATTR
部分中指定的类。我特意尝试从以下示例中提取 text1 :
//This code is within an html page
<div class="class1">
<img class="class2" src="...">
<strong>
<a href="..." target="_blank">text1</a>
</strong>
<br>
<small>text2</small>
<small class="class3">
<br>
<em>text3:</em>
<span>
<a href="..." class="class4">
<small style="color: #aaa; font-size: 80%">text4</small>
text5
</a>
</span>
<br>
<em>text6</em>
<a href="..." class="class5">text7</a>,
<a href="..." class="class5">text8</a>
</small>
</div>
我尝试了什么:
我知道当我使用&#34;实验事件录制模式&#34;然后点击特定的 text1 ,我会收到以下代码:
EVENT TYPE=CLICK SELECTOR="HTML>BODY>DIV:nth-of-type(5)>DIV>STRONG>A" BUTTON=0
我测试了SELECTOR是否可以在EXTRACT代码中工作:
TAG POS=1 TYPE=SPAN SELECTOR="HTML>BODY>DIV:nth-of-type(5)>DIV>STRONG>A" EXTRACT=TXT
但是你可以想象,它没有。
问题:有谁知道如何从上述情况中提取 text1 ?
答案 0 :(得分:0)
嗯,有几种方法可以提取这个文本。例如:
TAG POS=1 TYPE=IMG ATTR=CLASS:"class2"
TAG POS=R1 TYPE=A ATTR=* EXTRACT=TXT
或者如果你使用&#39; iMacros for Chrome&#39;,这里有一个在选择器帮助下的解决方案:
TAG SELECTOR="HTML>BODY>DIV:nth-of-type(5)>DIV>STRONG>A" EXTRACT=TXT