`
shen211
  • 浏览: 46581 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

URL 获取网页内容乱码解决

    博客分类:
  • java
阅读更多
in = url.openStream();
			int all = url.openConnection().getContentLength();
			byte[] b = new byte[all];
    		int index = 0;
    		int count = in.read(b, index, all);
		    while (count != -1) {
		      index += count;
		      count = in.read(b, index, 1);
		    }
			String  str = new String(b, "gb2312");



注意:获取用byte读取内容,其他的如字符串读取,则不能解决问题
分享到:
评论

相关推荐

    获取网页内容的例子[解决中文乱码]

    获取网页内容的例子 绝对可以运行 各种编码的网页都可以正确获取 中文乱码不复存在

    Python BeautifulSoup中文乱码问题的2种解决方法

    使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家首先是代码复制代码 代码如下:from bs4 import BeautifulSoupimport urllib2url = ‘//www.jb51.net/...

    Node.js抓取中文网页乱码问题和解决方法

    Node.js 抓取非 utf-8 的中文网页时会出现乱码问题,比如网易的首页编码是 gb2312,抓取时会出现乱码 代码如下: var request = require(‘request’)  var url = ‘http://www.163.com’ request(url, function ...

    HttpClient以及获取页面内容应用

    * 通过url获取网页内容, * 解决中文乱码问题 * @param httpUrl * @return */ public static String downloadPage(String httpUrl) { StringBuffer pageBuffer = new StringBuffer(); URL pageUrl = ...

    python抓取并保存html页面时乱码问题的解决方法

    在用Python抓取html页面并保存的时候,经常出现抓取下来的网页内容是乱码的问题。出现该问题的原因一方面是自己的代码中编码设置有问题,另一方面是在编码设置正确的情况下,网页的实际编码和标示的编码不符合造成的...

    python网络编程之http协议-数据请求

    编写程序实现新闻网页数据的请求和获取数据的保存: 进入一个学校的新闻首页,分析各不同新闻网页url之间的区别和联系,并根据得到的规律通过程序生成所要请求的网页的url(前30个页面)。 使用requests库通过http...

    escape函数解决js中ajax传递中文出现乱码问题

    本来网页特效中的escape()是将中文按iso-8859-1字符集进行url编码的,那样通过 request.getparameter()是能直接获取到请求参数的,但后来的javascript将escape()换成了unicode字符集编 码,如此一来,在jsp教程和...

    一个简单的java爬虫产品

     最初的想法是不创建文件,直接将内容保存到变量中,然后创建索引,即先抓取网页的内容,然后将网页的内容和URL保存到自己构建的JavaBean对象中,接着将这个对象放到一个list列表中,等所有网页抓取完毕以后,将这...

    实验报告5 http协议.doc

    进入一个学校的新闻首页,分析各不同新闻网页url之间的区别和联系,并根据得到的规律通过程序生成所要请求的...对生成的文件进行验证,如果出现中文乱码的问题,请对可能的原因进行分析,并给出可行的解决方案。

    php读取远程gzip压缩网页的方法

    都得到一片乱码,查看了许多内容,包括页面的header信息,发现原来页面使用了。     类似的信息,即Content-Encoding为gzip,即该站点开启了gzip压缩。这里的解决方案有多种,当然如果你使用file_get_contents的...

    搜索引擎代码

    1.提高系统稳定性:优化蜘蛛抓取网页时索引建立的方式,避免因服务器异常,导致整站索引损坏的问题;优化一些蜘蛛抓取的容错功能。(重要) 2.完善搜索关键词竞价广告系统,使广告匹配更精准;增加竞价价格查询;并...

    PHP开发实战1200例源码

    实例112 解决用substr()函数对中文字符串截取时出现乱码的问题 143 实例113 字符串与HTML标记相互转换 144 实例114 运用PHP 5.0新型字符串输出XML数据 145 实例115 判断字符串中是否存在指定子串 146 2.9 正则...

    PHP开发实战1200例(第1卷).(清华出版.潘凯华.刘中华).part1

    实例112 解决用substr()函数对中文字符串截取时出现乱码的问题 143 实例113 字符串与HTML标记相互转换 144 实例114 运用PHP 5.0新型字符串输出XML数据 145 实例115 判断字符串中是否存在指定子串 146 2.9 正则表达式...

    PHP开发实战1200例(第1卷).(清华出版.潘凯华.刘中华).part2

    实例112 解决用substr()函数对中文字符串截取时出现乱码的问题 143 实例113 字符串与HTML标记相互转换 144 实例114 运用PHP 5.0新型字符串输出XML数据 145 实例115 判断字符串中是否存在指定子串 146 2.9 正则表达式...

    PHP程序开发范例宝典III

    实例007 Windows下发布“明日科技”网站 12 1.2 Linux下环境配置 14 实例008 Linux下Apache1.x安装配置 14 实例009 Linux下安装与配置Apache 2.x 15 实例010 Linux下PHP的安装配置 16 实例011 Linux下...

    DotNetTextBox V6.0.10 商业版 下载 (已知最新)

    4)新增GetImagesUrl属性,可以通过该属性获取控件提交内容里所有图片的URL地址(Webeditor1.GetImagesUrl[图片序号].ToString()),得到的图片地址将可用于首页新闻的图片显示或幻灯片显示。 2008/2/28 Version ...

    商用版本文本编辑器DotNetTextBoxV6.0.8Source 源码

    4)新增GetImagesUrl属性,可以通过该属性获取控件提交内容里所有图片的URL地址(Webeditor1.GetImagesUrl[图片序号].ToString()),得到的图片地址将可用于首页新闻的图片显示或幻灯片显示。 2008/2/28 Version 5.0.0...

    asp.net知识库

    帮助解决网页和JS文件中的中文编码问题的小工具 慎用const关键字 装箱,拆箱以及反射 动态调用对象的属性和方法——性能和灵活性兼备的方法 消除由try/catch语句带来的warning 微软的应试题完整版(附答案) 一个...

    SpringBoot开发非常美观的java博客系统(包含后台管理功能)

    一、java main方式运行mblog-web下的BootApplication.java时抛出异常的解决方案 Unable to start EmbeddedWebApplicationContext due to missing EmbeddedServletContainerFactory bean. SpringBoot开发非常美观的...

Global site tag (gtag.js) - Google Analytics