首页 > 资讯 > 精选 >java编码转换过程是怎样的

702

分享到

java编码转换过程是怎样的

2023-07-06 03:07:00 702人浏览安东尼

摘要

本文小编为大家详细介绍“java编码转换过程是怎样的”，内容详细，步骤清晰，细节处理妥当，希望这篇“java编码转换过程是怎样的”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。java中的编码转换(以utf8和gb

本文小编为大家详细介绍“java编码转换过程是怎样的”，内容详细，步骤清晰，细节处理妥当，希望这篇“java编码转换过程是怎样的”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。

java中的编码转换(以utf8和gbk为例)

在正常javaweb开发中经常会发现字符转换的需求，会存在中文字符转换乱码的现象，如何解决以及其转换原理我至今懵懵懂懂，于是专门写了个测试代码进行尝试，总算理清了编码，先上结论，总结如下：

utf8中存放有各种语言编码，当前主流开发中会使用utf8进行编码解码，该方式不会产生乱码，产生乱码有以下几种情况

gbk（中文）、iso-8859-1（无中文）等其他方式进行编码，则只能用其对应方式进行解码，否则为乱码
使用utf8进行编码用其他方式解码则会导致乱码，需进行一次转换
使用无对应字符（中文）的字符集（iso-8859-1）编码会导致乱码，且无法还原解码

以下是针对以上情况的代码测试

如何编码就如何解码

@Testpublic void test0() {    String test = "测试";    System.out.println(Arrays.toString(test.getBytes(StandardCharsets.UTF_8)));//[-26, -75, -117, -24, -81, -107]    System.out.println(new String(test.getBytes(StandardCharsets.UTF_8), StandardCharsets.UTF_8));//测试}

@Testpublic void test1() throws UnsupportedEncodingException {    String test = "测试";    System.out.println(Arrays.toString(test.getBytes("gbk")));//[-78, -30, -54, -44]    System.out.println(new String(test.getBytes("gbk"), "GBK"));//测试}

utf8编码 - 错误形式解码

@Testpublic void test2() throws UnsupportedEncodingException {    String test = "测试";    System.out.println(Arrays.toString(test.getBytes(StandardCharsets.UTF_8)));//[-26, -75, -117, -24, -81, -107]    System.out.println(new String(test.getBytes(StandardCharsets.UTF_8), "gbk"));//娴嬭瘯}

正确做法，按错误的解码形式（gbk）作为中转，将其按错误形式（gbk）重新还原编码（utf8-encode），再使用utf8进行一次正确解码（utf8-decode）即可得到原来的字符

@Testpublic void test3() throws UnsupportedEncodingException {    String test = "测试";    String test_gbk_utf8 = new String(test.getBytes(StandardCharsets.UTF_8), "gbk");    System.out.println(test_gbk_utf8);//娴嬭瘯    String test_utf8_gbk = new String(test_gbk_utf8.getBytes("gbk"), StandardCharsets.UTF_8);    System.out.println(test_utf8_gbk);//测试}

无对应字符编码

@Test    public void test4() throws UnsupportedEncodingException {        String test = "测试";        System.out.println(Arrays.toString(test.getBytes(StandardCharsets.ISO_8859_1)));//[63, 63]        System.out.println(new String(test.getBytes(StandardCharsets.ISO_8859_1), StandardCharsets.ISO_8859_1));//??    }

该情况下即使使用原先的编码方式进行解码也无法还原字符了，属于不可逆的状态

java编码格式的转换以及乱码恢复

如何在java中进行编码格式转换

下面这行代码的含义是: 获取目标字符串str的gbk编码格式的二进制码,然后将二进制码按照utf8编码格式重新编码成字符串,当然,下面这种写法百分百会乱码,因为编码格式不一致.

new String(str.getBytes("gbk"),"utf8")

首先什么情况会乱码

如果要传输一个字符串,首先要按照一定的编码格式将字符串转换成字节流,当字节流传输到接收方的时候再将字节流按照某种编码格式转换成字符串.乱码也正是产生在重新转换成字符串的过程中.以下是我对中文乱码的测试:

  String str="彩虹";        String [] a=new String[] {"gbk","unicode","utf8","gb2312"};        for (int i=0;i<a.length;i++){            for (int j=0;j<a.length;j++){                System.out.println("二进制格式:   "+a[i]+"编码格式:  "+a[j]);                System.out.println("编码后的字符串:  "+new String(str.getBytes(a[i]),a[j]));             }        }

二进制格式: gbk编码格式: gbk
编码后的字符串: 彩虹
二进制格式: gbk编码格式: unicode
编码后的字符串: 닊뫧
二进制格式: gbk编码格式: utf8
编码后的字符串: �ʺ�
二进制格式: gbk编码格式: gb2312
编码后的字符串: 彩虹
二进制格式: unicode编码格式: gbk
编码后的字符串: �_i唝
二进制格式: unicode编码格式: unicode
编码后的字符串: 彩虹
二进制格式: unicode编码格式: utf8
编码后的字符串: ��_i�y
二进制格式: unicode编码格式: gb2312
编码后的字符串: ��_i�y
二进制格式: utf8编码格式: gbk
编码后的字符串: 褰╄櫣
二进制格式: utf8编码格式: unicode
编码后的字符串: ꧨ馹
二进制格式: utf8编码格式: utf8
编码后的字符串: 彩虹
二进制格式: utf8编码格式: gb2312
编码后的字符串: 褰╄��
二进制格式: gb2312编码格式: gbk
编码后的字符串: 彩虹
二进制格式: gb2312编码格式: unicode
编码后的字符串: 닊뫧
二进制格式: gb2312编码格式: utf8
编码后的字符串: �ʺ�
二进制格式: gb2312编码格式: gb2312
编码后的字符串: 彩虹

可以看出,如果二进制编码格式和字符串的编码格式不同就会引起乱码.

为什么gbk,gb2312转换没有乱码?

gbk和gb2312之间的转换没有乱码是因为gbk是gb2312的增强版本,支持更多的汉字编码,所以如果二进制编码格式是gbk而解码格式是gb2312,这种情况是有可能出现部分汉字乱码的.

乱码的数据可以转变回来吗?

上述结果中的乱码其实可以大致分为两种,一种是复杂的汉字和图形组合,一种是"?".

如果希望恢复的乱码数据中有问号,那么这条数据恢复的可能性就不大了.因为除了"?"的其他乱码其实都是有自己的编码规则的,只要逆向的解码并按照正确的编码格式重新编码就可以恢复.但是"?"除外,因为当字节流按照某种编码格式重新编译的时候,字节数据中无法按照该编码格式转换成有意义字符的字节都会转换成"?",所以就算逆向的编码成字节流,所有的"?"都会转换成同一字节,也就失去了他本身的意义.

如果乱码中不包含"?",那么还是有希望转换回去的,我以上述乱码中的 "褰╄櫣" 为例重新进行了一次转换,代码如下:

       String str="褰╄櫣";        String [] charset=new String[] {"gbk","unicode","utf8","gb2312"};        for (int i=0;i<charset.length;i++){            for (int j=0;j<charset.length;j++){                System.out.println("二进制格式:   "+charset[i]+"编码格式:  "+charset[j]);                System.out.println("编码后的字符串:  "+new String(str.getBytes(charset[i]),charset[j]));             }        }

二进制格式: gbk编码格式: gbk
编码后的字符串: 褰╄櫣
二进制格式: gbk编码格式: unicode
编码后的字符串: ꧨ馹
二进制格式: gbk编码格式: utf8
编码后的字符串: 彩虹
二进制格式: gbk编码格式: gb2312
编码后的字符串: 褰╄��
二进制格式: unicode编码格式: gbk
编码后的字符串: ��0%Dj�
二进制格式: unicode编码格式: unicode
编码后的字符串: 褰╄櫣
二进制格式: unicode编码格式: utf8
编码后的字符串: ��0%Dj�
二进制格式: unicode编码格式: gb2312
编码后的字符串: ��0%Dj�
二进制格式: utf8编码格式: gbk
编码后的字符串: 瑜扳晞娅�
二进制格式: utf8编码格式: unicode
编码后的字符串: 냢閄�
二进制格式: utf8编码格式: utf8
编码后的字符串: 褰╄櫣
二进制格式: utf8编码格式: gb2312
编码后的字符串: 瑜扳��娅�
二进制格式: gb2312编码格式: gbk
编码后的字符串: 褰╄?
二进制格式: gb2312编码格式: unicode
编码后的字符串: ꧨ�
二进制格式: gb2312编码格式: utf8
编码后的字符串: 彩�?
二进制格式: gb2312编码格式: gb2312
编码后的字符串: 褰╄?

可以看到其中一种转换方式成功的将乱码转变回了正常的中文汉字

二进制格式: gbk编码格式: utf8
编码后的字符串: 彩虹

读到这里，这篇“java编码转换过程是怎样的”文章已经介绍完毕，想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会，如果想了解更多相关内容的文章，欢迎关注编程网精选频道。

--结束END--

本文标题: java编码转换过程是怎样的

本文链接: https://lsjlt.com/news/357466.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

java编码转换过程是怎样的

java中的编码转换(以utf8和gbk为例)

以下是针对以上情况的代码测试

java编码格式的转换以及乱码恢复

如何在java中进行编码格式转换

首先什么情况会乱码

为什么gbk,gb2312转换没有乱码?

乱码的数据可以转变回来吗?

java编码转换过程是怎样的

java中的编码转换过程是什么

java中的编码转换过程(以utf8和gbk为例)

Linux中的编码转换程序convmv的安装和使用教程是怎样的

Java 8 - Base64-编码转换

剖析Python源代码编制过程是怎么样的

java的运行过程是怎样的

Java String类型的编码方式转换是什么

J2ME中KVM编译过程是怎样的

mysql big5转 utf-8的转换程式是怎么样的

java doc线程关键代码的编写是怎样的

Java Unicode和中文编码转换

Java类的加载过程是怎样的

HTTP转换HTTPS的过程是什么

javascript的类型转换是怎样的

Java之String类型的编码方式转换

java编程两种树形菜单结构的转换代码

Java详解entity转换到vo过程

java中文编码转换的方法有哪些

Java线程生命周期及转换过程

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南