我问了问题in a codeplex discussion,但我希望在stackoverflow上能得到更快的答案。
因此,我使用HTML Agility Pack在C#中进行HTML解析。 我有以下html结构:
<body>
<p class="paragraph">text</p>
<p class="paragraph">text</p>
<p class="specific">text</p>
<p class="paragraph">text</p>
<p class="paragraph">text</p>
</body>
我需要在p元素之后使用类“specific”获取所有带有“paragraph”的p元素。
有办法吗?
感谢。
答案 0 :(得分:6)
在Mark的例子中使用.Class(如果不存在,替换适当的任何东西)
e.g。在LINQPad中,您可以获得5,6,7
:
int[] a = { 6, 5, 6 ,7 };
a.SkipWhile(x=>x!=6).Skip(1).Dump();
因此,根据SelectNodes类型返回,可以是:
.SelectNodes( "/p" ).SkipWhile( p => p.Class != "specific" ).Skip(1)
或
.SelectNodes( "/p" ).Cast<XX>().SkipWhile( p => p.Class != "specific" ).Skip(1)
(或丑陋的版本)
.SelectNodes( "/p" ).SkipWhile( p => ((XX)p).Class != "specific" ).Skip(1)
(或者在某些情况下 - 如果您的表达式已经过适当过滤,则不是这样)
.SelectNodes( "/p" ).OfType<XX>().SkipWhile( p => p.Class != "specific" ).Skip(1)
编辑:我可能会创建一个扩展方法:
static class HapExtensions
{
public IEnumerable<T> SkipUntilAfter( this IEnumerable<T> sequence, Predicate<T> predicate) {
return sequence.SkipWhile( predicate).Skip(1);
}
}
任何人都在寻找现有技术吗?有什么好名字的建议吗?
答案 1 :(得分:2)
试试这个
bool latterDayParagraphs = false;
List<DocumentNode> nodes = new List<DocumentNode>();
foreach(var pElement in doc.DocumentNode.SelectNodes("/p"))
{
if(pElement.Class != "paragraph")
{
latterDayParagraphs = true;
continue;
}
if(latterDayParagraphs)
{
nodes.Add(pElement);
}
}