您现在的位置: 365建站网 > 365文章 > HttpWebRequest读取网页源码转字符串不完整的解决办法

HttpWebRequest读取网页源码转字符串不完整的解决办法

文章来源:365jz.com     点击数:539    更新时间:2020-06-28 00:45   参与评论

在读取网站源码时发现部分页面读到的内容不完整,浏览器打开正常

1 说明不是人家服务器问题

2 fiddler里打开发现也不完整,而且乱码,但在transformer里设置成 no compression 后也正常。说明读取的东西是完整的,是后续处理的问题

3 c#里调试发现读取的字符串被截断,copy字符串到notepad++里发现被截断的地方有\0\0,原来如此,\0表示字符串结su呢

4.处理程序使用的自动解压缩方法的设置

</>code

  1. request.AutomaticDecompression = DecompressionMethods.Deflate | DecompressionMethods.GZip |
  2.                                                  DecompressionMethods.None;

处理的方法如下:

</>code

  1. try
  2. {
  3. strUrl = "http://www.xxx.com";
  4.                 
  5.                 CookieContainer cc = new CookieContainer();
  6.                 HttpWebRequest request = (HttpWebRequest)WebRequest.Create(strUrl);
  7.  
  8.                 request.Method = "Get";
  9.                 request.CookieContainer = cc;
  10.                 request.KeepAlive = true;
  11.                 request.ContentType = "text/html";
  12.                 request.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36";
  13.                 request.Headers.Add("x-requested-with:XMLHttpRequest");
  14.                 request.Headers.Add(HttpRequestHeader.AcceptLanguage, "zh-CN,zh;q=0.8,en;q=0.6,nl;q=0.4,zh-TW;q=0.2");
  15.                 request.Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8";
  16.                 request.AutomaticDecompression = DecompressionMethods.Deflate | DecompressionMethods.GZip |
  17.                                                  DecompressionMethods.None;
  18.                 request.Headers.Add("Accept-Encoding", "gzip, deflate");
  19.                 if (request.Method == "POST")
  20.                 {
  21.                     (request as HttpWebRequest).ContentType = "application/x-www-form-urlencoded";
  22.                 }
  23.  
  24.                 HttpWebResponse response = (HttpWebResponse)request.GetResponse();
  25.  
  26.                 //StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("gb2312"));
  27.                 StreamReader reader = new StreamReader(response.GetResponseStream(), encoder);
  28.  
  29.                 strMsg = reader.ReadToEnd();
  30.                 // .\0为null,空字符,也是字符串结束标志
  31.                 strMsg = strMsg.Replace("\0", "");
  32.  
  33.                 reader.Close();
  34.                 reader.Dispose();
  35.                 response.Close();
  36.  
  37.  
  38.             }
  39.             catch
  40.             { }



如对本文有疑问,请提交到交流论坛,广大热心网友会为你解答!! 点击进入论坛

发表评论 (539人查看0条评论)
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
昵称:
最新评论
------分隔线----------------------------

快速入口

· 365软件
· 杰创官网
· 建站工具
· 网站大全

其它栏目

· 建站教程
· 365学习

业务咨询

· 技术支持
· 服务时间:9:00-18:00
365建站网二维码

Powered by 365建站网 RSS地图 HTML地图

copyright © 2013-2024 版权所有 鄂ICP备17013400号