asp.net采集页面上所有图像图片资源的具体方法-巨人网络通讯

asp.net采集页面上所有图像图片资源的具体方法

有时我们需要采集一些信息到自己的数据库，本地磁盘，我们经常使用的是WebClient,WebRequest等等，今天主要说一下，对于一个ＵＲＩ地址，采集这个页面上所有的图像资源，下面是源代码，供大家参考，学习。

/// summary>
  /// 下载指定ＵＲＬ下的所有图片
  /// /summary>
  public class WebPageImage
  {
    /// summary>
    /// 获取网页中全部图片
    /// /summary>
    /// param name="url">网页地址/param>
    /// param name="charSet">网页编码，为空自动判断/param>
    /// returns>全部图片显示代码/returns>
    public string getImages(string url, string charSet)
    {
      string s = getHtml(url, charSet);
      return getPictures(s, url);
    }

    /// summary>
    /// 获取网页中全部图片
    /// /summary>
    /// param name="url">网址/param>
    /// returns>全部图片代码/returns>
    public string getImages(string url)
    {
      return getImages(url, "");
    }

    string doman(string url)
    {
      Uri u = new Uri(url);
      return u.Host;
    }

    /// summary>
    /// 获取网页内容
    /// /summary>
    /// param name="url">网站地址/param>
    /// param name="charSet">目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码 /param>
    /// returns>/returns>
    string getHtml(string url, string charSet)
    {
      WebClient myWebClient = new WebClient();
      //创建WebClient实例myWebClient 
      // 需要注意的： 
      //有的网页可能下不下来，有种种原因比如需要cookie,编码问题等等 
      //这是就要具体问题具体分析比如在头部加入cookie 
      // webclient.Headers.Add("Cookie", cookie); 
      //这样可能需要一些重载方法。根据需要写就可以了 

      //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。 
      myWebClient.Credentials = CredentialCache.DefaultCredentials;
      //如果服务器要验证用户名,密码 
      //NetworkCredential mycred = new NetworkCredential(struser, strpassword); 
      //myWebClient.Credentials = mycred; 
      //从资源下载数据并返回字节数组。（加@是因为网址中间有"/"符号） 
      byte[] myDataBuffer = myWebClient.DownloadData(url);
      string strWebData = Encoding.Default.GetString(myDataBuffer);

      //获取网页字符编码描述信息 
      Match charSetMatch = Regex.Match(strWebData, "meta([^]*)charset=([^]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
      string webCharSet = charSetMatch.Groups[2].Value.Replace("\"", "");
      if (charSet == null || charSet == "")
        charSet = webCharSet;

      if (charSet != null  charSet != ""  Encoding.GetEncoding(charSet) != Encoding.Default)
        strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);
      return strWebData;
    }

    string getPictures(string data, string url)
    {
      MatchCollection ps = Regex.Matches(data, @"img\b[^>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?imgUrl>[^\s\t\r\n""'>]*)[^>]*?/?[\s\t\r\n]*>");
      string s = string.Empty;
      for (int i = 0; i  ps.Count; i++)
      {
        pictures p = new pictures(ps[i].Value, url);
        s += p.GetHtml + "br />" + Environment.NewLine;
      }
      return s;
    }

    /// summary>
    /// 图片实体
    /// 图片文件属性处理类
    /// /summary>
    public class pictures
    {
      public pictures(string strHtml, string baseUrl)
      {
        _html = strHtml;
        Uri u1 = new Uri(baseUrl);
        _doman = u1.Host;
        _baseUrl = u1.Scheme + "://" + _doman;
        setSrc();
      }

      private string _html = string.Empty;
      private string _baseUrl = string.Empty;
      private string _doman = string.Empty;

      public string GetHtml
      {
        get { return _html; }
      }

      public string Alt
      {
        get
        {
          return GetAttribute("alt")[0];
        }
      }

      public string Src
      {
        get
        {
          string s = GetAttribute("src")[0];
          return s;
        }
      }

      /// summary>
      /// 根据基路径把相对路径转换成绝对径
      /// /summary>
      /// param name="baseUrl">基础路径/param>
      /// param name="u">待转换的相对路径/param>
      /// returns>绝对路径/returns>
      public string absUrl(string baseUrl, string u)
      {
        Uri ub = new Uri(baseUrl);
        Uri ua = new Uri(ub, u);
        return ua.AbsoluteUri;
      }

      private void setSrc()
      {
        string strPattern = @"src[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?";
        string src = GetAttribute("src")[0].ToLower();
        if (!(src.IndexOf("http://") == 0 || src.IndexOf("https://") == 0)  _baseUrl.Length > 10)
        {
          src = absUrl(_baseUrl, src);
          string s = "src=\"" + src + "\"";
          _html = Regex.Replace(_html, strPattern, s);
        }
      }

      /// summary>
      /// 获取HTML代码中标签属性
      /// /summary>
      /// param name="strHtml">HTML代码/param>
      /// param name="strAttributeName">属性名称/param>
      /// returns>属性值集合/returns>
      private string[] GetAttribute(string strAttributeName)
      {
        Liststring> lstAttribute = new Liststring>();
        string strPattern = string.Format(
          @"{0}[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?",
          strAttributeName
          );
        MatchCollection matchs = Regex.Matches(_html, strPattern, RegexOptions.IgnoreCase);
        foreach (Match m in matchs)
        {
          lstAttribute.Add(m.Value.Split('=')[1].Replace("\"", "").Replace("'", ""));
        }
        if (lstAttribute.Count == 0) lstAttribute.Add("");
        return lstAttribute.ToArray();
      }
    }
  }

调用：

new WebPageImage().getImages(http://www.sina.com)

结果：

以上就是本文的全部内容，希望对大家的学习有所帮助。

您可能感兴趣的文章:

利用MSXML2.XmlHttp和Adodb.Stream采集图片
asp.net(c#)做一个网页数据采集工具
asp.net c#采集需要登录页面的实现原理及代码
asp.net采集网页图片的具体方法
PHP远程采集图片详细教程

上一篇：ASP.NET多文件上传控件Uploadify的使用方法
下一篇：asp.net实现调用带有输出参数的存储过程实例

asp.net采集页面上所有图像图片资源的具体方法

有时我们需要采集一些信息到自己的数据库，本地磁盘，我们经常使用的是WebClient,WebRequest等等，今天主要说一下，对于一个ＵＲＩ地址，采集这个页面上所有的图像资源，下面是源代asp.net,采集,页,面上,所有,...

重庆实名电销卡代理（重庆办电话卡）

本文目录一览： 1、电销卡在哪里处理2、电销卡在哪里处理多少钱3、请问在哪里能够处...

ABP框架的体系结构及模块系统讲解

DDD分层为了减少复杂性和提高代码的可重用性，采用分层架构是一种被广泛接受的技术...

宁波防封AI电话机器人办理服务商,防封号好用吗-大家都

一企嗨电话营销系统 1．当前的电销场景有哪些困扰？ 1）手机.卡频繁被封，电销业务...

济南包月电销卡低资费（济南电话卡免费申请）

本文目录一览：1、电销卡是什么卡?2、电销卡要充话费吗3、什么是电销卡4、电销卡是...

万物互联时代还不懂物联网？赶快过来了解一下！

万物互联时代，物联网技术也开始得到广泛的运用，但是，对于一些其他行业的人来说...

win7系统QQ语音有杂音、回音的解决方法（图文）

qq语音有回音、杂音在win7系统中也是较为常见的一个问题，那么qq语音有回音怎么办呢...

南阳外呼营销系统怎么样（销售外呼系统认准南牛网络

本文目录一览： 1、外呼系统怎么样？2、外呼系统好用不?哪些功能比较好用呢？3、智...

浅谈数据库事务四大特性

数据库四大特性分别是：原子性、一致性、分离性、持久性。下面我们看看具体介绍。...

机器人技术基础系列：规划与导航

机器人技术基础系列：规划与导航概览自主移动机器人的规划与导航包括利用有目的...

上海CRM管理软件

如何将营销与销售保持共同发挥作用？如果仅仅是双方在各自层面上，很难发挥双重功...

重庆自动外呼系统平台（重庆呼叫中心）

本文目录一览： 1、外呼体系若何措置赏罚？ 2、重庆有哪几家外呼公司对照好呢？若何...

中国人工智能大会召开百位专家聚集预测AI的下一个风口

日前，2017中国人工智能大会在杭州召开。这是中国人工智能界级别最高、最权威的学术...

Win10 Mobile/PC一周年更新预览版14390今日开始推送

7月16日消息，小编于7月14日预报了唐娜姐本周将推送Win10第二个新预览版的消息，今天...

信通网赢400电话办理流程介绍（如何开通400电话办理）

【企号卡网400电话办理流程介绍】400在企号卡网就可以办理，400电话可以在营业厅办理...

江西房地产AI语音机器人怎么办理-诚信互利

江西房地产AI语音机器人怎么办理在这种系统之中建立了经济并且营销渠道，相应的客...

asp.net采集页面上所有图像图片资源的具体方法

全 部 栏 目

全部栏目