说html我解析包含锚标记:
<a href="/here">this is what I want</a>
使用包文档中的示例我可以获得href字符串&#34; / here&#34;由:
links <- runX $ doc >>> Text.HandsomeSoup.css "a" ! "href"
但是如何获得内部html?以下是我所寻找的但不起作用的精神:
links <- runX $ doc >>> Text.HandsomeSoup.css "a" ! "value"
我已经彻底浏览了HandsomeSoup文档,此时我想知道这是否可行。任何帮助将不胜感激。
答案 0 :(得分:2)
HandsomeSoup构建于hxt之上,因此您也可以使用hxt的( vast )API。更具体地说,我相信......
getChildren >>> isText >>> getText
...将从元素中提取文本内容。以下是文档条目
getChildren
,isText
和getText
。我怀疑你还想要hasAttrValue
这样的东西来更好地指定你感兴趣的锚点。