• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    C# 实现抓取网站页面内容的实例方法

    抓取新浪网的新闻栏目,如图所示:

    使用 谷歌浏览器的查看源代码: 通过分析得知,我们所要找的内容在以下两个标签之间:

    复制代码 代码如下:

    !-- publish_helper name='要闻-新闻' p_id='1' t_id='850' d_id='1' -->

    内容。。。。

    !-- publish_helper name='要闻-财经' p_id='30' t_id='98' d_id='1' -->


    如图所示:

    内容。。。。

    使用VS建立一个如图所示的网站:

    我们下载网络数据主要通过   WebClient 类来实现。

    使用下面源代码获取我们选择的内容:

    复制代码 代码如下:

    protected void Enter_Click(object sender, EventArgs e)
            {
                WebClient we = new WebClient();  //主要使用WebClient类
                byte[] myDataBuffer;
                myDataBuffer = we.DownloadData(txtURL.Text);  //该方法返回的是 字节数组,所以需要定义一个byte[]
                string download = Encoding.Default.GetString(myDataBuffer);  //对下载的数据进行编码

              
                //通过查询源代码,获取某两个值之间的新闻内容
                int startIndex = download.IndexOf("!-- publish_helper name='要闻-新闻' p_id='1' t_id='850' d_id='1' -->");
                int endIndex = download.IndexOf("!-- publish_helper name='要闻-财经' p_id='30' t_id='98' d_id='1' -->");

                string temp = download.Substring(startIndex, endIndex - startIndex + 1);  //截取新闻内容

                lblMessage.Text = temp;//显示所截取的新闻内容
            }


    效果如图:

    最后: 除了把下载的数据保存为文本以外,还可以保存为 文件类型 和 流 类型。

    复制代码 代码如下:

    WebClient wc = new WebClient();
                wc.DownloadFile(TextBox1.Text, @"F:\test.txt");
                Label1.Text = "文件下载完成";

    复制代码 代码如下:

    WebClient wc = new WebClient();
                Stream  s =  wc.OpenRead(TextBox1.Text);

                StreamReader sr = new StreamReader(s);
                Label1.Text =  sr.ReadToEnd();

    您可能感兴趣的文章:
    • C#多线程爬虫抓取免费代理IP的示例代码
    • c# 抓取Web网页数据分析
    • C# 抓取网页内容的方法
    • c# HttpWebRequest通过代理服务器抓取网页内容应用介绍
    • C#实现通过程序自动抓取远程Web网页信息的代码
    • asp.net c# 抓取页面信息方法介绍
    • c#根据网址抓取网页截屏生成图片的示例
    • 基于C#实现网络爬虫 C#抓取网页Html源码
    • C#实现抓取和分析网页类实例
    • c#批量抓取免费代理并且验证有效性的实战教程
    上一篇:某个aspx页面突然死了连日志也没有的解决方法
    下一篇:vs2010根据字符串内容添加断点的方法介绍
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯

    时间:9:00-21:00 (节假日不休)

    地址:江苏信息产业基地11号楼四层

    《增值电信业务经营许可证》 苏B2-20120278

    C# 实现抓取网站页面内容的实例方法 实现,抓取,网站,页面,内容,