我正在尝试使用其他JavaScript或jQuery获取类名来解析HTML页面,而不是用随机字符替换它。我可以轻松提取类名,但替换它会导致麻烦。到目前为止我有这个代码:
class_ids = [tag.split() for tag in re.findall(r'class=(?:"|\')([a-zA-Z0-9-_\s]+)(?:"|\')', html_page)]
class_ids = set([item for sublist in class_ids for item in sublist])
对于每个班级,我将生成相应的随机字符类名(exp。 footer:sjrh13li )。简单地通过文件替换页脚字符串也会在正文中替换它,而 title 等类名也会将标记<title></title>
转换为<cjir4331></cjir4331>
。我试图替换整个行,如class="title"
=&gt; class="cjir4331"
但这并不能解决像class="title huge"
这样的问题,因为我需要分别检测类 title 和 huge 并替换它们。 HTML代码与JavaScript代码结合使用,因此必须将document.getElementsByClassName('someClass')
转换为document.getElementsByClassName('noleretko4356')。
有什么方法吗?