首页 > 资讯 > 后端开发 > JAVA >java出现乱码的原因与解决方法详解

258

分享到

java出现乱码的原因与解决方法详解

java基础 java 乱码 2017-02-06 23:02:58 258人浏览猪猪侠

摘要

java在字符串中统一用Unicode表示。（推荐：java视频教程）对于任意一个字符串：String string = “测试字符串”;如果源文件是GBK编码，操作系统默认环境编码也为GBK，那么编译的时候，JVM将按照GBK编码将字节数

java在字符串中统一用Unicode表示。（推荐：java视频教程）

对于任意一个字符串：String string = “测试字符串”;

如果源文件是GBK编码，操作系统默认环境编码也为GBK，那么编译的时候，JVM将按照GBK编码将字节数组解析为字符，然后将字符转换为Unicode格式的字节数组，作为内部存储(字节数组→字符→Unicode字节数组)

当打印这个字符串时，JVM根据操作系统本地的语言环境，将Unicode转换为GBK，然后操作系统将GBK格式的内容显示出来。

当源码文件是UTF-8, 我们需要通知编译器源码的格式，javac -encoding utf-8 … , 编译时，JVM按照utf-8 解析成字符，然后转换为unicode格式的字节数组，那么不论源码文件是什么格式，同样的字符串，最后得到的unicode字节数组是完全一致的，显示的时候，也是转成GBK来显示（跟OS环境有关）

乱码是如何产生的？

本质上都是由于字符串原本的编码格式与读取时解析用的编码格式不一致导致的。

乱码指的是程序显示出来的字符文本无法用任何语言去解读。一般情况下会包含大量的?。乱码问题是所有计算机用户或多或少会遇到的问题。

造成乱码的原因就是因为使用了错误的字符编码去解码字节流，因此当我们在思考任何跟文本显示有关的问题时，请时刻保持清醒：当前使用的字符编码是什么。只有这样，我们才能正确分析和处理乱码问题。

例如最常见的网页乱码问题。如果你是网站技术人员，遇到这样的问题，需要检查以下原因：

服务器返回的响应头Content-Type没有指明字符编码

网页内是否使用META Http-EQUIV标签指定了字符编码

网页文件本身存储时使用的字符编码和网页声明的字符编码是否一致

java代码中的乱码问题如何解决呢？

例如：String s = “测试字符串”;

System.out.println( new String(s.getBytes(),"UTF-8")); 
//错误，因为getBytes()默认使用GBK编码， 而解析时使用UTF-8编码，肯定出错。

其中getBytes()是将Unicode转换为操作系统默认格式的字节数组，即“测试字符串”的GBK格式，new String (bytes, Charset) 中的charset 是指定读取byte的方式，这里指定为UTF-8，即把bytes的内容当做UTF-8来读取。

如下两种方式得到的结果都是正确的，因为它们的源内容编码和解析用的编码是一致的。

System.out.println( new String(s.getBytes(),"GBK"));
System.out.println( new String(s.getBytes("UTF-8"),"UTF-8"));

那么，如何利用getBytes 和 new String() 来进行编码转换呢？

网上流传着一种错误的方法:

GBK--> UTF-8: new String( s.getBytes("GBK") , "UTF-8);

这种方式是完全错误的，因为getBytes 的编码与 UTF-8 不一致，肯定是乱码。

但是为什么在Tomcat 下，使用 new String(s.getBytes(“iso-8859-1”) ,”GBK”) 却可以用呢？

答案是：

tomcat 默认使用iso-8859-1编码，也就是说，如果原本字符串是GBK的，tomcat传输过程中，将GBK转成iso-8859-1了，默认情况下，使用iso-8859-1读取中文肯定是有问题的。

那么我们需要将iso-8859-1 再转成GBK，而iso-8859-1 是单字节编码的，即他认为一个字节是一个字符，那么这种转换不会对原来的字节数组做任何改变，因为字节数组本来就是由单个字节组成的。

如果之前用GBK编码，那么转成iso-8859-1后编码内容完全没变，则 s.getBytes(“iso-8859-1”) 实际上还是原来GBK的编码内容则 new String(s.getBytes(“iso-8859-1”) ,”GBK”) 就可以正确解码了。所以说这是一种巧合。

如何正确的将GBK转UTF-8 ? （实际上是unicode转UTF-8)

//利用getBytes将unicode字符串转成UTF-8格式的字节数组，然后用utf-8 对这个字节数组解码成新的字符串
new String( s.getBytes("utf-8") , "utf-8");

UTF-8 转GBK原理也是一样
new String( s.getBytes("GBK") , "GBK");

其实核心工作都由getBytes(charset)做了。getBytes的jdk描述：Encoding this String into a sequence of bytes using the named charset,storing the result into a new byte array.

OutputStreamWriter w1 = new OutputStreamWriter(new FileOutputStream("D:file1.txt"),"UTF-8");
InputStreamReader( stream, charset)

可以帮助我们轻松的按照指定编码读写文件。

附录：
HttpClient post请求中文乱码问题解决

最近接到现场同事反馈，在掉接口的过程中，厂家收到的请求报文中文是乱码的。我检查了版控的代码，找到如下解决办法：

原始代码（中文乱码）：

HttpPost httpPost = new HttpPost(url);
DefaultHttpClient httpClient = new DefaultHttpClient();
//请求头
httpPost.setHeader("Accept", MediaType.APPLICATioN_JSON);
httpPost.setHeader("Content-Type", "application/json;charset=UTF-8");
//请求实体
StringEntity reqEntity = new StringEntity(reqStr);
httpPost.setEntity(reqEntity);
//获取响应
HttpResponse httpResp = httpClient.execute(httpPost);
HttpEntity respEntity = httpResp.getEntity();

解决办法：

方法一：
//请求实体
HttpEntity reqEntity = new ByteArrayEntity(reqStr.getBytes("UTF-8"));
//StringEntity reqEntity = new StringEntity(reqStr);
httpPost.setEntity(reqEntity);

方法二：
//请求实体
StringEntity reqEntity = new StringEntity(reqStr,Charset.forName("UTF-8"));
httpPost.setEntity(reqEntity);

更多java知识请关注Java基础教程栏目。

--结束END--

本文标题: java出现乱码的原因与解决方法详解

本文链接: https://lsjlt.com/news/4556.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

java出现乱码的原因与解决方法详解

java出现乱码的原因与解决方法详解

java汉字乱码的原因与解决方法

MySQL出现乱码的原因及解决方法

java导出excel乱码解决方法及原因

java导出excel乱码原因及解决方法

python中urllib.unquote乱码的原因与解决方法

java zip压缩乱码原因与解决方法介绍

分析phpexcel中出现乱码的原因和解决方法

java文件读取中文乱码的原因与解决方法

PHP开发出现中文乱码的原因及解决方法

java文件出现乱码解决方法

PHP出现中文乱码的原因及解决方法是什么

乱码问题的原因及解决方法

浅析PHP输出汉字乱码的原因及解决方法

java文件读取出现乱码解决方法

Oracle乱码提示的原因分析与解决方案

Mysql数据库乱码的原因及解决方法

浅析Golang中乱码的原因及解决方法

探讨golang oracle乱码的原因和解决方法

PHP5.6乱码的原因及解决方法是什么

如何掌握人工智能的未知领域？

如何深入钻研数据库管理的复杂世界？

如何处理用户的会话管理知识点问题？

AVL树（Java）

身为Java“搬砖”程序员，你掌握了多线程吗？

【网络安全必备 | 前端开发基础】一篇文章速学 JavaScript

Java医院智能3D导诊系统源码微信小程序源码

《面试专题-----经典高频面试题收集一》解锁 Java 面试的关键：深度解析常见高频经典面试题（第一篇）

JDK8和JDK17安装切换，IDEA配置多个版本JDK

⑩【Redis Java客户端】：Jedis、SpringDataRedis、StringRedisTemplate