使用JavaScript& jQuery解析HTML - 用随机字符替换类名

时间:2015-04-29 13:09:17

标签: javascript python html regex html-parsing

我正在尝试使用其他JavaScript或jQuery获取类名来解析HTML页面,而不是用随机字符替换它。我可以轻松提取类名,但替换它会导致麻烦。到目前为止我有这个代码:

class_ids = [tag.split() for tag in re.findall(r'class=(?:"|\')([a-zA-Z0-9-_\s]+)(?:"|\')', html_page)]
class_ids = set([item for sublist in class_ids for item in sublist])

对于每个班级,我将生成相应的随机字符类名(exp。 footer:sjrh13li )。简单地通过文件替换页脚字符串也会在正文中替换它,而 title 等类名也会将标记<title></title>转换为<cjir4331></cjir4331>。我试图替换整个行,如class="title" =&gt; class="cjir4331"但这并不能解决像class="title huge"这样的问题,因为我需要分别检测类 title huge 并替换它们。 HTML代码与JavaScript代码结合使用,因此必须将document.getElementsByClassName('someClass')转换为document.getElementsByClassName('noleretko4356')。

有什么方法吗?

0 个答案:

没有答案