我在C中创建了一个程序,它将读取文件的内容,然后将其输出到新文件中。但是,我需要扩展此程序以跳过HTML标记。有人可以指出我正确的方向,我应该做什么或我应该怎么做?
我所知道的只是单独跳过字符,但是如何跳过它以便包含在“<和>”中跳过所有内容?
如果可能的话,请不要给我一个完整的代码,因为这是家庭作业,我想从中学习。
谢谢!
答案 0 :(得分:0)
首先,设置一个标志(称之为html_flag
)并将其设置为0(false
)。您可以通过将其声明为int
来执行此操作。当您浏览每个角色时,如果html_flag
为0
,则输出所有内容,直到您点击<
字符。此时,您将html_flag
设置为1.如果标志为1,则不输出任何扫描字符。当遇到0
字符时,您将标志返回>
,并继续在整个文件中执行此操作。
答案 1 :(得分:0)
当您正在阅读文件时,您可以在找到'&lt;'时设置标记char,当你找到'&gt;'时,在那个标志下面。
当此标志启动时,您只需忽略并阅读下一个字符。
我能想到的唯一问题是,如果你的HTML有这样的东西:
<a href="something with '>'">
在这种情况下,你需要另一个标志“”。
答案 2 :(得分:0)
有一个布尔标志,表示你是否需要保留符号。
伪代码:
tag = false
for(ch in text){
if(ch == "<")
tag = true
if not tag
print ch
if(ch == ">")
tag = false
}