如何使用java去除html标签

原创

ithorizon 8个月前 (09-01) 阅读数 115 #Java

怎样使用Java去除HTML标签

在Java中，去除HTML标签是一个常见的需求，特别是在处理网页内容抓取或者需要清理用户输入的场景。以下是一些方法来帮助你使用Java去除HTML标签。

使用String的replaceAll方法

这是最易懂的方法，通过使用正则表达式来移除HTML标签。


public class HtmlTagRemover {
    public static void main(String[] args) {
        String htmlContent = "<p>这是一段<strong>加粗</strong>的文字。</p>";
        String textWithoutHtml = htmlContent.replaceAll("<[^>]*>", "");
        System.out.println(textWithoutHtml);
    }
}

上述代码会打印输出："这是一段加粗的文字。" 注意，这个方法假设标签和属性不会包含尖括号（< 和 >），并且所有标签都是正确关闭的。

使用第三方库

使用第三方库如Apache Commons Lang或者jsoup可以更有效地去除HTML标签。

使用Apache Commons Lang

首先，你需要添加Apache Commons Lang的依靠到你的项目中。

然后，你可以使用StringUtils类中的stripHtml方法：


import org.apache.commons.lang3.StringEscapeUtils;
public class HtmlTagRemover {
    public static void main(String[] args) {
        String htmlContent = "<p>这是一段<strong>加粗</strong>的文字。</p>";
        String textWithoutHtml = StringEscapeUtils.unescapeHtml4(htmlContent);
        // 出于unescapeHtml4不直接去除标签，你可以继续使用replaceAll或者其它方法
        textWithoutHtml = textWithoutHtml.replaceAll("\\<.*?\\>", "");
        System.out.println(textWithoutHtml);
    }
}

使用jsoup

jsoup是一个用于解析HTML的库，它也提供了从HTML文档中提取文本的功能。

首先，添加jsoup的依靠到项目中，然后使用以下代码：


import org.jsoup.Jsoup;
import org.jsoup.safety.Whitelist;
public class HtmlTagRemover {
    public static void main(String[] args) {
        String htmlContent = "<p>这是一段<strong>加粗</strong>的文字。</p>";
        String textWithoutHtml = Jsoup.clean(htmlContent, Whitelist.none());
        System.out.println(textWithoutHtml);
    }
}