深度剖析为什么Python中整型不会溢出

深度整型 Python 2023-01-31 01:01:10 375人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

前言本次分析基于 Cpython 解释器，python3.x版本在Python2时代，整型有 int 类型和 long 长整型，长整型不存在溢出问题，即可以存放任意大小的整数。在python3后，统一使用了长整型。这也是吸引科研人员的一

640?wx_fmt=jpeg

前言

本次分析基于 Cpython 解释器，python3.x版本

在Python2时代，整型有 int 类型和 long 长整型，长整型不存在溢出问题，即可以存放任意大小的整数。在python3后，统一使用了长整型。这也是吸引科研人员的一部分了，适合大数据运算，不会溢出，也不会有其他语言那样还分短整型，整型，长整型...因此python就降低其他行业的学习门槛了。

那么，不溢出的整型实现上是否可行呢？

不溢出的整型的可行性

尽管在 C 语言中，整型所表示的大小是有范围的，但是 python 代码是保存到文本文件中的，也就是说，python代码中并不是一下子就转化成 C 语言的整型的，我们需要重新定义一种数据结构来表示和存储我们新的“整型”。

怎么来存储呢，既然我们要表示任意大小，那就得用动态的可变长的结构，显然，数组的形式能够胜任:

[longintrepr.h]
struct _lonGobject {
    PyObject_VAR_HEAD
    int *ob_digit;
};
长整型的保存形式
长整型在python内部是用一个 int 数组( ob_digit[n] )保存值的. 待存储的数值的低位信息放于低位下标, 高位信息放于高下标.比如要保存 123456789 较大的数字,但我们的int只能保存3位(假设):
ob_digit[0] = 789;
ob_digit[1] = 456;
ob_digit[2] = 123;
低索引保存的是地位，那么每个 int 元素保存多大的数合适？有同学会认为数组中每个int存放它的上限(2^31 - 1)，这样表示大数时，数组长度更短，更省空间。但是，空间确实是更省了，但操作会代码麻烦，比方大数做乘积操作，由于元素之间存在乘法溢出问题，又得多考虑一种溢出的情况。
怎么来改进呢？在长整型的 ob_digit 中元素理论上可以保存的int类型有 32 位，但是我们只保存 15位，这样元素之间的乘积就可以只用 int 类型保存即可, 对乘积结果做位移操作就能得到尾部和进位 carry了，因此定义位移长度为 15：
#define PyLong_SHIFT  15
#define PyLong_BASE ((digit)1 << PyLong_SHIFT)
#define PyLong_MASK ((digit)(PyLong_BASE - 1))
PyLong_MASK 也就是 0b111111111111111 ,通过与它做位运算 与 的操作就能得到低位数。
有了这种存放方式，在内存空间允许的情况下，我们就可以存放任意大小的数字了。
长整型的运算
加法与乘法运算都可以使用我们小学的竖式计算方法，例如对于加法运算:
为方便理解，表格展示的是数组中每个元素保存的是 3 位十进制数，计算结果保存在变量z中，那么 z 的数组最多只要 size_a+1 的空间（两个加数中数组较大的元素个数 + 1），因此对于加法运算，处理过程就是各个对应位置的元素进行加法运算，计算过程就是竖式计算的方式:
[longobject.c]
static PyLongObject * x_add(PyLongObject *a, PyLongObject *b) {
    int size_a = len(a), size_b = len(b);
    PyLongObject *z;
    int i;
    int carry = 0; // 进位
    // 确保a是两个加数中较大的一个
    if (size_a < size_b) {
        // 交换两个加数
        swap(a, b);
        swap(&size_a, &size_b);
    }
    z = _PyLong_New(size_a + 1);  // 申请一个能容纳size_a+1个元素的长整型对象
    for (i = 0; i < size_b; ++i) {
        carry += a->ob_digit[i] + b->ob_digit[i];
        z->ob_digit[i] = carry & PyLong_MASK;   // 掩码
        carry >>= PyLong_SHIFT;                 // 移除低15位, 得到进位
    }
    for (; i < size_a; ++i) {                   // 单独处理a中高位数字
        carry += a->ob_digit[i];
        z->ob_digit[i] = carry & PyLong_MASK;
        carry >>= PyLong_SHIFT;
    }
    z->ob_digit[i] = carry;
    return long_nORMalize(z);                   // 整理元素个数
}
这部分的过程就是，先将两个加数中长度较长的作为第一个加数，再为用于保存结果的 z 申请空间，两个加数从数组从低位向高位计算，处理结果的进位，将结果的低 15 位赋值给 z 相应的位置。最后的 long_normalize(z)是一个整理函数，因为我们 z 申请了 a_size+1 的空间，但不意味着 z 会全部用到，因此这个函数会做一些调整，去掉多余的空间，数组长度调整至正确的数量。
若不方便理解，附录将给出更利于理解的 python 代码。
竖式计算不是按个位十位来计算的吗，为什么这边用整个元素？
竖式计算方法适用与任何进制的数字，我们可以这样来理解，这是一个 32768 (2的15次方) 进制的，那么就可以把数组索引为 0 的元素当做是 “个位”，索引 1 的元素当做是 “十位”。
乘法运算
乘法运算一样可以用竖式的计算方式，两个乘数相乘，存放结果的 z 的元素个数为 size_a+size_b即可：
这里需要主意的是，当乘数 b 用索引 i 的元素进行计算时，结果 z 也是从 i 索引开始保存。先创建 z 并初始化为 0，这 z 进行累加，加法运算则可以利用前面的 x_add 函数：
// 为方便理解，会与cpython中源码部分稍有不同
static PyLongObject * x_mul(PyLongObject *a, PyLongObject *b)
{
    int size_a = len(a), size_b = len(b);
    PyLongObject *z = _PyLong_New(size_a + size_b);
    memset(z->ob_digit, 0, len(z) * sizeof(int)); // z 的数组清 0
    for (i = 0; i < size_b; ++i) {
        int carry = 0;          // 用一个int保存元素之间的乘法结果
        int f = b->ob_digit[i]; // 当前乘数b的元素
        // 创建一个临时变量，保存当前元素的计算结果，用于累加
        PyLongObject *temp = _PyLong_New(size_a + size_b);
        memset(temp->ob_digit, 0, len(temp) * sizeof(int)); // temp 的数组清 0
        int pz = i; // 存放到临时变量的低位
        for (j = 0; j < size_a; ++j) {
            carry = f * a[j] + carry;
            temp[pz] = carry & PyLong_MASK;  // 取低15位
            carry = carry >> PyLong_SHIFT;  // 保留进位
            pz ++;
        }
        if (carry){     //  处理进位
            carry += temp[pz];
            temp[pz] = carry & PyLong_MASK;
            carry = carry >> PyLong_SHIFT;
        }
        if (carry){
            temp[pz] += carry & PyLong_MASK;
        }
        temp = long_normalize(temp);
        z = x_add(z, temp);
    }
    return z
}
这大致就是乘法的处理过程，竖式乘法的复杂度是n^2，当数字非常大的时候（数组元素个数超过 70 个）时，python会选择性能更好，更高效的 Karatsuba multiplication 乘法运算方式，这种的算法复杂度是 3nlog3≈3n1.585，当然这种计算方法已经不是今天讨论的内容了。有兴趣的小伙伴可以去了解下。
总结
要想支持任意大小的整数运算，首先要找到适合存放整数的方式，本篇介绍了用 int 数组来存放，当然也可以用字符串来存储。找到合适的数据结构后，要重新定义整型的所有运算操作，本篇虽然只介绍了加法和乘法的处理过程，但其实还需要做很多的工作诸如减法，除法，位运算，取模，取余等。
python代码以文本形式存放，因此最后，还需要一个将字符串形式的数字转换成这种整型结构:
[longobject.c]
PyObject * PyLong_FromString(const char *str, char **pend, int base)
{
}
这部分不是本篇的重点，有兴趣的同学可以看看这个转换的过程，这个过程还是比较繁琐的，因为它还要处理进制问题,能够处理 0xfff3 或者 0b1011 等情况。
参考
https://GitHub.com/python/cpython/blob/master/Objects/longobject.c
附录
# 例子中的表格中，数组元素最多存放3位整数，因此这边设置1000
# 对应的取低位与取高位也就变成对 1000 取模和取余操作
PyLong_SHIFT = 1000
PyLong_MASK = 999
# 以15位长度的二进制
# PyLong_SHIFT = 15
# PyLong_MASK = (1 << 15) - 1
def long_normalize(num):
    """
    去掉多余的空间，调整数组的到正确的长度
    eg: [176, 631, 0, 0]  ==>  [176, 631]
    :param num:
    :return:
    """
    end = len(num)
    while end >= 1:
        if num[end - 1] != 0:
            break
        end -= 1
    num = num[:end]
    return num
def x_add(a, b):
    size_a = len(a)
    size_b = len(b)
    carry = 0
    # 确保 a 是两个加数较大的，较大指的是元素的个数
    if size_a < size_b:
        size_a, size_b = size_b, size_a
        a, b = b, a
    z = [0] * (size_a + 1)
    i = 0
    while i < size_b:
        carry += a[i] + b[i]
        z[i] = carry % PyLong_SHIFT
        carry //= PyLong_SHIFT
        i += 1
    while i < size_a:
        carry += a[i]
        z[i] = carry % PyLong_SHIFT
        carry //= PyLong_SHIFT
        i += 1
    z[i] = carry
    # 去掉多余的空间，数组长度调整至正确的数量
    z = long_normalize(z)
    return z
def x_mul(a, b):
    size_a = len(a)
    size_b = len(b)
    z = [0] * (size_a + size_b)
    for i in range(size_b):
        carry = 0
        f = b[i]
        # 创建一个临时变量
        temp = [0] * (size_a + size_b)
        pz = i  # 元素计算结果从 i 索引开始保存
        for j in range(size_a):
            carry += f * a[j]
            temp[pz] = carry % PyLong_SHIFT
            carry //= PyLong_SHIFT
            pz += 1
        if carry:
            carry += temp[pz]
            temp[pz] = carry % PyLong_SHIFT
            carry //= PyLong_SHIFT
            pz += 1
        if carry:
            temp[pz] += carry % PyLong_SHIFT
        temp = long_normalize(temp)
        z = x_add(z, temp)
    return z
a = [543, 934, 23]
b = [632, 454]
print(x_add(a, b))
print(x_mul(a, b))
❈博客：Https://www.hongweipeng.com/
❈
     
赞赏作者
Python中文社区作为一个去中心化的全球技术社区，以成为全球20万Python中文开发者的精神部落为愿景，目前覆盖各大主流媒体和协作平台，与阿里、腾讯、百度、微软、亚马逊、开源中国、CSDN等业界知名公司和技术社区建立了广泛的联系，拥有来自十多个国家和地区数万名登记会员，会员来自以公安部、工信部、清华大学、北京大学、北京邮电大学、中国人民银行、中科院、中金、华为、BAT、谷歌、微软等为代表的政府机关、科研单位、金融机构以及海内外知名公司，全平台近20万开发者关注。
▼ 点击下方阅读原文，免费成为社区会员

您可能感兴趣的文档: Python 官方文档：入门教程 Python 简明教程 Python 最佳实践指南 2018 Python 3 标准库实例教程 --结束END-- 本文标题: 深度剖析为什么Python中整型不会溢出本文链接: https://lsjlt.com/news/184381.html(转载时请注明来源链接) 有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢深度剖析为什么Python中整型不会溢出前言本次分析基于 CPython 解释器，python3.x版本在python2时代，整型有 int 类型和 long 长整型，长整型不存在溢出问题，即可以存放任意大小的整数。在python3后，统一使用了长整型。这也是吸引科研人员的一... 99+ 2023-01-31 深度整型 Python 为什么继承Python内置类型会出问题这篇文章主要讲解了“为什么继承Python内置类型会出问题”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“为什么继承Python内置类型会出问题”吧！ 1、内置类型有哪些在正式开始之... 99+ 2023-06-16 深入理解Python虚拟机中整型(int)的实现原理及源码剖析目录数据结构深入分析 PyLongObject 字段的语意小整数池整数的加法实现总结数据结构在 cpython 内部的 int 类型的实现数据结构如下所示： typedef str... 99+ 2023-03-13 Python 虚拟机整型 Python虚拟机 Python 整型为什么并发golang编程中输出不同的数组长度？ php小编鱼仔为你解答并发golang编程中输出不同的数组长度的问题。在并发编程中，多个goroutine同时操作一个共享资源，可能会出现竞争条件导致结果不确定。当多个goroutin... 99+ 2024-02-09 为什么numpy对象是Python数据分析中必不可少的数据类型？在Python中，NumPy是一种非常重要的数据类型，尤其在数据分析领域中，它的作用更为突出。那么，为什么NumPy对象是Python数据分析中必不可少的数据类型呢？本文将从以下几个方面进行阐述。一、NumPy的基本介绍 NumPy是Py... 99+ 2023-07-20 数据类型 numy 对象浅析为什么会出现无法生存Git仓库中的公钥的问题作为一名开发者，你可能会遇到无法生存 Git 仓库中的公钥的问题，这可能会给你的工作造成相当的麻烦。Git 仓库中的公钥是必要的，它可用于身份验证，保证安全性。那么，为什么会出现无法生存 Git 仓库中的公钥的问题？可能有以下几个原因：生成... 99+ 2023-10-22 为什么在这个 golang 示例中，互斥体部分中包含的条件不会出现死锁？在这个 golang 示例中，互斥体部分中包含的条件不会出现死锁的原因是因为互斥体是通过 `Lock()` 和 `Unlock()` 方法来实现对共享资源的互斥访问的。当一个 goro... 99+ 2024-02-13

软考高级职称资格查询热门wiki mysql删除数据恢复 mysql删表能回滚吗 mysql找回删除的表 mysql不小心删除了表 mysql不小心把表删了怎么恢复数据 mysql数据表删除后能恢复么 mysql误删表数据恢复 mysql误删表恢复 mysql删除表怎么恢复 mysql删除表近期文章 python写一段编程，祝福高三考生旗开得胜 PythonOOP 的力量：封装与抽象类的超级英雄联盟 Python 代码的建筑师：封装与抽象类的蓝图和构建工具 PythonOOP 的航海图：封装与抽象类的船帆和指南针 Python 封装与抽象类的实验室：试验和发现的乐趣 Python 代码的可读性之钥：封装与抽象类的解读指南 PythonOOP 的秘密花园：封装与抽象类的花卉盛宴 Python 代码的组织大师：封装与抽象类的秩序之道 Python 封装与抽象类的终极秘籍：通往对象导向编程之路 PythonOOP 的宝藏：封装与抽象类的寻宝之旅推荐阅读 python分析数据的方法是什么 2024-03-01 如何使用Python实现抽奖小程序 2024-03-01 python copy函数的作用是什么 2024-03-01 python ffmpeg模块怎么安装和使用 2024-02-29 python进程池创建队列的方法是什么 2024-02-29 python无法运行文件的原因有哪些 2024-02-29 python can't open file报错怎么解决 2024-02-29 python keyerror错误怎么解决 2024-02-29 python字符串处理与应用的方法有哪些 2024-02-29 python全局变量如何定义 2024-02-29 热门问答 1 回答如何调试操作系统的错误？操作系统 2023-11-15发布 1 回答操作系统中的I/O系统是如何实现的？操作系统 2023-11-15发布 1 回答如何实现操作系统的内存管理？操作系统 2023-11-15发布 1 回答什么是虚拟内存，它对操作系统有什么影响？操作系统 2023-11-15发布 1 回答 ASP中的MVC架构和WebForms架构有什么区别和使用场景？ ASP.NET 2023-11-15发布 1 回答 ASP中的数据验证和数据校验有什么不同？ ASP.NET 2023-11-15发布 1 回答 ASP中的ADO对象和DAO对象有什么区别和使用方法？ ASP.NET 2023-11-15发布 1 回答 Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？ node.js 2023-11-15发布 1 回答 Vue.js中的动态组件是什么？如何使用它来动态渲染组件？ VUE 2023-11-15发布 1 回答如何使用Vue.js实现懒加载和预加载？ VUE 2023-11-15发布热门标签 Python操作PostgreSQL Python连接PostgreSQL Python连接和操作PostgreSQL SQL建表语句 SQL建表语句使用 RedisTemplate使用 MySQL提取数据 JSON提取数据 MySQL从JSON提取数据 MySQL免密登录 MySQL免密登录配置 Oracle端口 Oracle修改端口 Oracle更换端口 Oracle更换监听端口 HBASE部署 HBASE集群部署 oracle中的trunc函数 oracle中trunc winx64安装格式化yyyy-mm-dd mysql时间戳格式化yyyy-mm-dd mysql8.0.15重置密码 mysql8.0.15修改密码 2059 Navicat连接MySQL出现2059 DBeaver导入数据 DBeaver导入excel大量数据 DBeaver导入excel数据 dbeaver导出