`
shenyuc629
  • 浏览: 193885 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

java去除字符中的HTML标记

    博客分类:
  • Java
阅读更多
转载地址:http://www.shuonar.com/blog/bdde9aa4-eb0a-40f3-bfed-3d01d1ac8871.html
1.去除单个HTML标记
String s="asdfasd<script>asdfsfd</script>1234";
System.out.println(s.replaceAll("<script.*?(?<=/script>)",""));
2.去除所有HTML标记
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HTMLSpirit{
    public static String delHTMLTag(String htmlStr){
         String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式
         String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
         String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式
        
         Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
         Matcher m_script=p_script.matcher(htmlStr);
         htmlStr=m_script.replaceAll(""); //过滤script标签
        
         Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
         Matcher m_style=p_style.matcher(htmlStr);
         htmlStr=m_style.replaceAll(""); //过滤style标签
        
         Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
         Matcher m_html=p_html.matcher(htmlStr);
         htmlStr=m_html.replaceAll(""); //过滤html标签

        return htmlStr.trim(); //返回文本字符串
     }
}
分享到:
评论

相关推荐

    Java正则表达式去除img标签的src内容

    java代码,从image标签中正则匹配取出src标签的内容,java代码,从image标签中正则匹配取出src标签的内容

    java字符串操作大全

    java字符串操作大全,适合初学者,浅显易懂 部JAVA字符串操作 2008-07-11 15:39:42| 分类: JAVA | 标签: |字号大中小 订阅 . JAVA字符串的方法 String a = "53c015"; //Integer.parseInt(s, radix) radix设置为...

    java代码-正则去除HTML代码中的SCRIPT标签

    java代码-正则去除HTML代码中的SCRIPT标签

    java代码-正则去除HTML代码中的IMG标签

    java代码-正则去除HTML代码中的IMG标签

    java代码-正则去除HTML代码中的A标签

    java代码-正则去除HTML代码中的A标签

    解析字符串去除HTML代码,保留文字,图片,视频

    用正则表达式,去除字符串中的HTML代码并保留文字,图片,视频。

    在Java中轻松将HTML格式文本转换为纯文本(保留换行)

    Jsoup是HTML解析器 lang和lang3这两个包里有转换所需的工具类 org.jsoup jsoup 1.11.3 commons-lang commons-lang 2.6 org.apache.commons commons-lang3 3.4 第二步:直接使用即可: import org.apache....

    Java使用正则表达式删除所有HTML标签的方法示例

    主要介绍了Java使用正则表达式删除所有HTML标签的方法,结合完整实例形式分析了java针对HTML页面元素script标签、style标签、html标签等的正则匹配相关操作技巧,需要的朋友可以参考下

    java去掉html标签 必须首先去掉双引号的正则

    java去掉html标签 必须首先去掉双引号的实现方法,代码如下

    java 正则表达式

    下表包含了元字符的完整列表以及它们在正则表达式上下文中的行为:字符 说明 \将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,“n”匹配字符“n”。“\n”匹配换行符。序列“\\”匹配“\”,“\(”...

    java替换url的域名和端口方法

    下面小编就为大家带来一篇java替换url的域名和端口方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧

    企业java工程师测试题

    而innerText只适用于IE浏览器,因此,尽可能地去使用innerHTML,而少用innerText,如果要输出不含HTML标签的内容,可以使用innerHTML取得包含HTML标签的内容后,再用正则表达式去除HTML标签 4. int 和 Integer 有...

    JAVA面试题最全集

    在Web开发中需要处理HTML标记时,应做什么样的处理,要筛选那些字符(&lt; &gt; & “”) 3.在JSP中如何读取客户端的请求,如何访问CGI变量,如何确定某个Jsp文件的真实路径。 4.描述Cookie和Session的作用,区别和各自...

    java 算法

    多线程的世界时钟,显示巴黎,罗马,上海时间, AWT界面,Java日期格式化及其使用例子,几个常用方法,判断字符是否属于中文,异常处理类,去掉字符串中重复的子字符串,将指定byte数组以16进制的形式打印到控制台,...

    Java面试宝典2020修订版V1.0.1.doc

    1、HTML中定义表格的宽度用80px和80%的区别是什么? 11 2、CSS样式定义优先级顺序是? 12 3、div和span的区别? 12 4、CSS选择器包括? 12 5、用css3语法中,如何实现一个矩形框的圆角效果和50%红色透明效果?,请写...

    java 面试题 总结

    JAVA平台提供了两个类:String和StringBuffer,它们可以储存和操作字符串,即包含多个字符的字符数据。这个String类提供了数值不可改变的字符串。而这个StringBuffer类提供的字符串进行修改。当你知道字符数据要改变...

    freemarker语法完整版

    主要使用在相似的字符串变量输出,比如某一个模块的所有字符串输出都必须是html安全的,这个时候就可以使用 该表达式 Freemarker代码 &lt;#escape x as x?html&gt; First name: ${firstName} &lt;#noescape&gt;Last ...

    Java EE常用框架.xmind

    采用一种算法,将中英文本中的字符拆分开来,形成词汇,以待用户输入关健字后搜索 流程 步一:按分词器拆分出词汇 步二:去除停用词和禁用词 步三:如果有英文,把英文字母转为小写,即搜索不分大小写 ...

    Java开发实战1200例(第1卷).(清华出版.李钟尉.陈丹丹).part3

    实例081 去掉字符串中的所有空格 101 实例082 汉字与区位码的转换 102 第5章 面向对象技术应用 103 5.1 Java中类的定义 104 实例083 自定义图书类 104 实例084 温度单位转换工具 105 实例085 域的默认初始化值 106 ...

Global site tag (gtag.js) - Google Analytics