首页 > 编程 > Regex > 正文

asp只采集网站可见文本的正则

2020-03-16 21:18:16
字体:
来源:转载
供稿:网友
它可以过虑Js 可以过滤 CSS 过滤HTML标识,只采集页面的可见文本。
 
 
 
我写的是这样: 
Function ClearHTMLCode(originCode) 
Dim reg 
set reg = new RegExp 
reg.IgnoreCase = True 
reg.Global = True 
reg.Pattern = "(<s+cript(.+?)<//s+cript>)" 
originCode= reg.Replace(originCode, "") 
reg.Pattern = "(<s+tyle(.+?)<//s+tyle>)" 
originCode= reg.Replace(originCode, "") 
reg.Pattern = "<[^>]*>" 
originCode= reg.Replace(originCode, "") 
ClearHTMLCode = originCode 
End Function 

不过有一些过滤不了!而且速度太慢!
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表