Question

我在C中创建了一个程序，它将读取文件的内容，然后将其输出到新文件中。但是，我需要扩展此程序以跳过HTML标记。有人可以指出我正确的方向，我应该做什么或我应该怎么做？

我所知道的只是单独跳过字符，但是如何跳过它以便包含在“＆lt;和＆gt;”中跳过所有内容？

如果可能的话，请不要给我一个完整的代码，因为这是家庭作业，我想从中学习。

谢谢！

Answer 1

首先，设置一个标志（称之为html_flag）并将其设置为0（false）。您可以通过将其声明为int来执行此操作。当您浏览每个角色时，如果html_flag为0，则输出所有内容，直到您点击<字符。此时，您将html_flag设置为1.如果标志为1，则不输出任何扫描字符。当遇到0字符时，您将标志返回>，并继续在整个文件中执行此操作。

Answer 2

当您正在阅读文件时，您可以在找到'＆lt;'时设置标记char，当你找到'＆gt;'时，在那个标志下面。

当此标志启动时，您只需忽略并阅读下一个字符。

我能想到的唯一问题是，如果你的HTML有这样的东西：

<a href="something with '>'">

在这种情况下，你需要另一个标志“”。

Answer 3

有一个布尔标志，表示你是否需要保留符号。

伪代码：

tag = false
for(ch in text){
    if(ch == "<")
        tag = true
    if not tag
        print ch
    if(ch == ">")
        tag = false
}

跳过某些字符

3 个答案: