• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    java asp分析各种搜索引擎的关键字,自动识别url 中关键字的编码
    所以必须要通过编码后的关键字,例如“解析关键字编码”在google里面输入搜索,得到编码后的“%E8%A7%A3%E6%9E%90%E5%85%B3%E9%94%AE%E5%AD%97%E7%BC%96%E7%A0%81”
    1.从以上地址中解析出关键字部分。
    2.通过编码后的关键字获取编码时的编码名称(如:gbk,utf-8等等)
    3.用URLdecode(keywords,encodeCode)来解码得到对应的关键字。
    以下是java代码的实现:
    复制代码 代码如下:

    package test;
    import java.io.UnsupportedEncodingException;
    import java.net.URLDecoder;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
    public class ParseURLKeyword {
    public static void main(String[] args) {
    String url = "http://www.google.co.kr/search?hl=enq=%ED%95%9C%EA%B5%AD%EC%96%B4+btnG=Google+Searchaq=foq=";
    System.out.println(ParseURLKeyword.getKeyword(url));
    System.out.println("");
    url = "http://www.google.cn/search?q=%E6%8F%90%E5%8F%96+%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E+%E5%85%B3%E9%94%AE%E5%AD%97hl=zh-CNnewwindow=1sa=2";
    System.out.println(ParseURLKeyword.getKeyword(url));
    System.out.println("");
    url = "http://www.google.com.tw/search?hl=zh-CNq=%E6%B9%98%E9%8B%BC%E4%B8%AD%E5%9C%8B%E9%A6%99%E7%85%99btnG=Google+%E6%90%9C%E7%B4%A2aq=foq=";
    System.out.println(ParseURLKeyword.getKeyword(url));
    System.out.println("");
    url = "http://www.baidu.com/s?wd=%D6%D0%87%F8%D3%D0%BE%80%D8%9F%C8%CE%B9%AB%CB%BE";
    System.out.println(ParseURLKeyword.getKeyword(url));
    System.out.println("");
    url = "http://www.baidu.com/s?wd=%C6%F3%D2%B5%CD%C6%B9%E3";
    System.out.println(ParseURLKeyword.getKeyword(url));
    System.out.println("");
    }
    public static String getKeyword(String url){
    String keywordReg = "(?:yahoo.+?[\\?|]p=|openfind.+?query=|google.+?q=|lycos.+?query=|onseek.+?keyword=|search\\.tom.+?word=|search\\.qq\\.com.+?word=|zhongsou\\.com.+?word=|search\\.msn\\.com.+?q=|yisou\\.com.+?p=|sina.+?word=|sina.+?query=|sina.+?_searchkey=|sohu.+?word=|sohu.+?key_word=|sohu.+?query=|163.+?q=|baidu.+?wd=|soso.+?w=|3721\\.com.+?p=|Alltheweb.+?q=)([^]*)";
    String encodeReg = "^(?:[\\x00-\\x7f]|[\\xfc-\\xff][\\x80-\\xbf]{5}|[\\xf8-\\xfb][\\x80-\\xbf]{4}|[\\xf0-\\xf7][\\x80-\\xbf]{3}|[\\xe0-\\xef][\\x80-\\xbf]{2}|[\\xc0-\\xdf][\\x80-\\xbf])+$";
    Pattern keywordPatt = Pattern.compile(keywordReg);
    StringBuffer keyword = new StringBuffer(20);
    Matcher keywordMat = keywordPatt.matcher(url);
    while (keywordMat.find()) {
    keywordMat.appendReplacement(keyword, "$1");
    }
    if (!keyword.toString().equals("")){
    String keywordsTmp = keyword.toString().replace("http://www.", "");
    Pattern encodePatt = Pattern.compile(encodeReg);
    String unescapeString = ParseURLKeyword.unescape(keywordsTmp);
    Matcher encodeMat = encodePatt.matcher(unescapeString);
    String encodeString = "gbk";
    if (encodeMat.matches()) encodeString = "utf-8";
    try {
    return URLDecoder.decode(keywordsTmp, encodeString);
    } catch (UnsupportedEncodingException e) {
    return "";
    }
    }
    return "";
    }
    public static String unescape(String src) {
    StringBuffer tmp = new StringBuffer();
    tmp.ensureCapacity(src.length());
    int lastPos = 0, pos = 0;
    char ch;
    while (lastPos src.length()) {
    pos = src.indexOf("%", lastPos);
    if (pos == lastPos) {
    if (src.charAt(pos + 1) == 'u') {
    ch = (char) Integer.parseInt(src.substring(pos + 2, pos + 6), 16);
    tmp.append(ch);
    lastPos = pos + 6;
    } else {
    ch = (char) Integer.parseInt(src.substring(pos + 1, pos + 3), 16);
    tmp.append(ch);
    lastPos = pos + 3;
    }
    } else {
    if (pos == -1) {
    tmp.append(src.substring(lastPos));
    lastPos = src.length();
    } else {
    tmp.append(src.substring(lastPos, pos));
    lastPos = pos;
    }
    }
    }
    return tmp.toString();
    }
    }

    以下是Asp的实现代码:
    复制代码 代码如下:

    Function DecodeURI(s)
    s = UnEscape(s)
    Dim reg, cs
    cs = "GBK"
    Set reg = New RegExp
    reg.Pattern = "^(?:[\x00-\x7f]|[\xfc-\xff][\x80-\xbf]{5}|[\xf8-\xfb][\x80-\xbf]{4}|[\xf0-\xf7][\x80-\xbf]{3}|[\xe0-\xef][\x80-\xbf]{2}|[\xc0-\xdf][\x80-\xbf])+$"
    If reg.Test(s) Then cs = "UTF-8"
    Set reg = Nothing
    Dim sm
    Set sm = CreateObject("ADODB.Stream")
    With sm
    .Type = 2
    .Mode = 3
    .Open
    .CharSet = "iso-8859-1"
    .WriteText s
    .Position = 0
    .CharSet = cs
    DecodeURI = .ReadText(-1)
    .Close
    End With
    Set sm = Nothing
    End Function
    Response.Write DecodeURI("%B8%A7%CB%B3%C7%E0%CB%C9%D2%A9%D2%B5")
    Response.Write DecodeURI("%E6%8A%9A%E9%A1%BA%E9%9D%92%E6%9D%BE%E8%8D%AF%E4%B8%9A")
    您可能感兴趣的文章:
    • java识别一篇文章中某单词出现个数的方法
    • Java基于直方图应用的相似图片识别实例
    • Java进阶教程之运行时类型识别RTTI机制
    • java网络编程之识别示例 获取主机网络接口列表
    • Java实现Shazam声音识别算法的实例代码
    上一篇:初探 SOA(补充)
    下一篇:qqwry.dat的数据结构图文解释第1/2页
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    java asp分析各种搜索引擎的关键字,自动识别url 中关键字的编码 java,asp,分析,各种,搜索引擎,