返回顶部
首页 > 资讯 > 后端开发 > Python >Python迭代器的实现原理
  • 759
分享到

Python迭代器的实现原理

2024-04-02 19:04:59 759人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

目录前言:迭代器的创建迭代器的底层结构迭代器是怎么迭代元素的?小结前言: 在python里面,只要类型对象实现了__iter__,那么它的实例对象就被称为可迭代对象(Iterable

前言:

python里面,只要类型对象实现了__iter__,那么它的实例对象就被称为可迭代对象(Iterable),比如字符串、元组、列表、字典、集合等等。而整数、浮点数,由于其类型对象没有实现__iter__,所以它们不是可迭代对象。

from typing import Iterable
print(
    isinstance("", Iterable),
    isinstance((), Iterable),
    isinstance([], Iterable),
    isinstance({}, Iterable),
    isinstance(set(), Iterable),
)  # True True True True True

print(
    isinstance(0, Iterable),
    isinstance(0.0, Iterable),
)  # False False

可迭代对象的一大特点就是它可以使用for循环进行遍历,但是能被for循环遍历的则不一定是可迭代对象。

我们举个栗子:

class A:
    def __getitem__(self, item):
        return f"参数item: {item}"
a = A()
#内部定义了 __getitem__
#首先可以让实例对象像字典一样访问属性
print(a["name"])  # 参数item: name
print(a["satori"])  # 参数item: satori

# 此外还可以像可迭代对象一样被for循环
# 循环的时候会自动给item传值,0 1 2 3...
# 如果内部出现了StopIteration,循环结束
# 否则会一直循环下去。这里我们手动break
for idx, val in enumerate(a):
    print(val)
    if idx == 5:
        break
"""
参数item: 0
参数item: 1
参数item: 2
参数item: 3
参数item: 4
参数item: 5
"""

所以实现了__getitem__的类的实例,也是可以被for循环的,但它并不是可迭代对象。

from typing import Iterable
print(isinstance(a, Iterable))  # False

打印的结果是 False。

总之判断一个对象是否是可迭代对象,就看它的类型对象有没有实现__iter__。可迭代对象我们知道了,那什么是迭代器呢?很简单,调用可迭代对象的__iter__方法,得到的就是迭代器。

迭代器的创建

不同类型的对象,都有自己的迭代器,举个栗子:

lst = [1, 2, 3]
#底层调用的其实是list.__iter__(lst)
#或者说PyList_Type.tp_iter(lst)
it = lst.__iter__()
print(it)  # <list_iterator object at 0x000001DC6E898640>
print(
    str.__iter__("")
)  # <str_iterator object at 0x000001DC911B8070>
print(
    tuple.__iter__(())
)  # <tuple_iterator object at 0x000001DC911B8070>

迭代器也是可迭代对象,只不过迭代器内部的__iter__返回的还是它本身。当然啦,在创建迭代器的时候,我们更常用内置函数iter。

lst = [1, 2, 3]
# 等价于 type(lst).__iter__(lst)
it = iter(lst)

但是iter函数还有一个鲜为人知的用法,我们来看一下:

val = 0
def foo():
    global val
    val += 1
    return val
# iter可以接收一个参数: iter(可迭代对象)
# iter也可以接收两个参数: iter(可调用对象, value)
for i in iter(foo, 5):
    print(i)
"""
1
2
3
4
"""

进行迭代的时候,会不停地调用接收的可调用对象,直到返回值等于传递第二个参数value,在底层被称为哨兵,然后终止迭代。

我们看一下iter函数的底层实现:

static PyObject *
builtin_iter(PyObject *self, PyObject *const *args, Py_ssize_t nargs)
{
    PyObject *v;
  
    // iter函数要么接收一个参数, 要么接收两个参数
    if (!_PyArg_CheckPositional("iter", nargs, 1, 2))
        return NULL;
    v = args[0];
    //如果接收一个参数
    //那么直接使用 PyObject_GetIter 获取对应的迭代器即可
    //可迭代对象的类型不同,那么得到的迭代器也不同
    if (nargs == 1)
        return PyObject_GetIter(v);
    // 如果接收的不是一个参数, 那么一定是两个参数
    // 如果是两个参数, 那么第一个参数一定是可调用对象
    if (!PyCallable_Check(v)) {
        PyErr_SetString(PyExc_TypeError,
                        "iter(v, w): v must be callable");
        return NULL;
    }
    // 获取value(哨兵)
    PyObject *sentinel = args[1];
    //调用PyCallIter_New
    //得到一个可调用的迭代器, calliterobject 对象
    
    return PyCallIter_New(v, sentinel);
}

以上就是iter函数的内部逻辑,既可以接收一个参数,也可以接收两个参数。这里我们只看接收一个可迭代对象的情况,所以核心就在于PyObject_GetIter,它是根据可迭代对象生成迭代器的关键,我们来看一下它的逻辑是怎么样的?该函数定义在Objects/abstract.c中。

PyObject *
PyObject_GetIter(PyObject *o)
{  
    //获取可迭代对象的类型对象
    PyTypeObject *t = Py_TYPE(o);
    //我们说类型对象定义的操作,决定了实例对象的行为
    //实例对象调用的那些方法都是定义在类型对象里面的
    //还是那句话:obj.func()等价于type(obj).func(obj)
    getiterfunc f;
    //所以这里是获取类型对象的tp_iter成员
    //也就是Python中的 __iter__
    f = t->tp_iter;
    //如果 f 为 NULL
    //说明该类型对象内部的tp_iter成员被初始化为NULL
    //即内部没有定义 __iter__ 
    //像str、tuple、list等类型对象,它们的tp_iter成员都是不为NULL的
    if (f == NULL) {
      //如果 tp_iter 为 NULL,那么解释器会退而求其次
      //检测该类型对象中是否定义了 __getitem__
      //如果定义了,那么直接调用PySeqIter_New
      //得到一个seqiterobject对象
      //下面的PySequence_Check负责检测类型对象是否实现了__getitem__
      //__getitem__ 对应 tp_as_sequence->sq_item
        if (PySequence_Check(o))
            return PySeqIter_New(o);
        // 走到这里说明该类型对象既没有__iter__、也没有__getitem__
        // 因此它的实例对象不具备可迭代的性质,于是抛出异常
        return type_error("'%.200s' object is not iterable", o);
    }
    else {
        // 否则说明定义了__iter__,于是直接进行调用
        // Py_TYPE(o)->tp_iter(o) 返回对应的迭代器
        PyObject *res = (*f)(o);
        // 但如果返回值res不为NULL、并且还不是迭代器
        // 证明 __iter__ 的返回值有问题,于是抛出异常
        if (res != NULL && !PyIter_Check(res)) {
            PyErr_FORMat(PyExc_TypeError,
                         "iter() returned non-iterator "
                         "of type '%.100s'",
                         Py_TYPE(res)->tp_name);
            Py_DECREF(res);
            res = NULL;
        }
        // 返回 res
        return res;
    }
}

所以我们看到这便是 iter 函数的底层实现,但是里面提到了__getitem__。我们说如果类型对象内部没有定义 __iter__,那么解释器会退而求其次检测内部是否定义了 __getitem__。

因此以上就是迭代器的创建过程,每个可迭代对象都有自己的迭代器,而迭代器本质上只是对原始数据的一层封装罢了。

迭代器的底层结构

由于迭代器的种类非常多,字符串、元组、列表等等,都有自己的迭代器,这里就不一一介绍了。所以我们就以列表的迭代器为例,看看迭代器在底层的结构是怎么样的。

typedef struct {
    PyObject_HEAD
    Py_ssize_t it_index;
    //指向创建该迭代器的列表
    PyListObject *it_seq;
} listiterobject;

显然对于列表而言,迭代器就是在其之上进行了一层简单的封装,所谓元素迭代本质上还是基于索引,并且我们每迭代一次,索引就自增 1。一旦出现索引越界,就将it_seq设置为NULL,表示迭代器迭代完毕。

我们实际演示一下:

from ctypes import *

class PyObject(Structure):
    _fields_ = [
        ("ob_refcnt", c_ssize_t),
        ("ob_size", c_void_p)
    ]

class ListIterObject(PyObject):
    _fields_ = [
        ("it_index", c_ssize_t),
        ("it_seq", POINTER(PyObject))
    ]

it = iter([1, 2, 3])
it_obj = ListIterObject.from_address(id(it))

# 初始的时候,索引为0
print(it_obj.it_index)  # 0
# 进行迭代
next(it)
# 索引自增1,此时it_index等于1
print(it_obj.it_index)  # 1
# 再次迭代
next(it)
# 此时it_index等于2
print(it_obj.it_index)  # 2
# 再次迭代
next(it)
# 此时it_index等于3
print(it_obj.it_index)  # 3

当it_index为3的时候,如果再次迭代,那么底层发现it_index已超过最大索引,就知道迭代器已经迭代完毕了。然后会将it_seq设置为NULL,并抛出StopIteration。如果是for循环,那么会自动捕获此异常,然后停止循环。

所以这就是迭代器,真的没有想象中的那么神秘,甚至在知道它的实现原理之后,还觉得有点low。

就是将原始的数据包了一层,加了一个索引而已。所谓的迭代仍然是基于索引来做的,并且每迭代一次,索引自增1。当索引超出范围时,证明迭代完毕了,于是将it_seq设置为NULL,抛出StopIteration。

迭代器是怎么迭代元素的?

我们知道在迭代元素的时候,可以通过next内置函数,当然它本质上也是调用了对象的__next__方法。

static PyObject *
builtin_next(PyObject *self, PyObject *const *args, Py_ssize_t nargs)
{
    PyObject *it, *res;
  
    // 同样接收一个参数或者两个参数
    // 因为调用next函数时,可以传入一个默认值
    // 表示当迭代器没有元素可以迭代的时候,会返回指定的默认值
    if (!_PyArg_CheckPositional("next", nargs, 1, 2))
        return NULL;

    it = args[0];
    //第一个参数必须是一个迭代器
    if (!PyIter_Check(it)) {
        //否则的话, 抛出TypeError
        //表示第一个参数传递的不是一个迭代器
        PyErr_Format(PyExc_TypeError,
            "'%.200s' object is not an iterator",
            it->ob_type->tp_name);
        return NULL;
    } 
    //it->ob_type表示获取类型对象,也就是该迭代器的类型
    //可能是列表的迭代器、元组的迭代器、字符串的迭代器等等
    //具体是哪一种不重要,因为实现了多态
    //然后再获取tp_iternext成员,相当于__next__
    //拿到函数指针之后,传入迭代器进行调用
    res = (*it->ob_type->tp_iternext)(it);
    
    // 如果 res 不为 NULL, 那么证明迭代到值了, 直接返回
    if (res != NULL) {
        return res;
    } else if (nargs > 1) {
        //否则的话,说明 res == NULL,也就是有可能出错了
        //那么看nargs是否大于1, 如果大于1, 说明设置了默认值
        PyObject *def = args[1];
        // 如果出现异常
        if (PyErr_Occurred()) {
        // 那么就看该异常是不是迭代完毕时所产生的StopIteration异常
            if(!PyErr_ExceptionMatches(PyExc_StopIteration))
            // 如果不是,说明Python程序的逻辑有问题
            // 于是直接return NULL,结束执行
            // 然后在 Python 里面我们会看到打印到stderr中的异常信息
                return NULL;
            // 如果是 StopIteration,证明迭代完毕了
            // 但我们设置了默认值,那么就应该返回默认值
            // 而不应该抛出 StopIteration,于是将异常回溯栈给清空
            PyErr_Clear();
        }
        // 然后增加默认值的引用计数, 并返回
        Py_INCREF(def);
        return def;
    } else if (PyErr_Occurred()) {
        //走到这里说明 res == NULL,并且没有指定默认值
        //那么当发生异常时,将异常直接抛出
        return NULL;
    } else {
        // 都不是的话,直接抛出 StopIteration
        PyErr_SetNone(PyExc_StopIteration);
        return NULL;
    }
}

以上就是next函数的背后逻辑,实际上还是调用了迭代器的__next__方法。

lst = [1, 2, 3]
it = iter(lst)
# 然后迭代,等价于next(it)
print(type(it).__next__(it))  # 1
print(type(it).__next__(it))  # 2
print(type(it).__next__(it))  # 3
# 但是next可以指定默认值
# 如果不指定默认值,或者还是type(it).__next__(it)
# 那么就会报错,会抛出StopIteration
print(next(it, 666))  # 666

以上就是元素的迭代,但是我们知道内置函数next要更强大一些,因为它还可以指定一个默认值。当然在不指定默认值的情况下,next(it)和type(it).__next__(it)最终是殊途同归的。

我们仍以列表的迭代器为例,看看__next__的具体实现。但是要想找到具体实现,首先要找到它的类型对象。

//迭代器的类型对象
PyTypeObject PyListIter_Type = {
    PyVarObject_HEAD_INIT(&PyType_Type, 0)
    "list_iterator",                            
    sizeof(listiterobject),                     
    0,                                          
    
    (destructor)listiter_dealloc,               
    0,                                          
    0,                                          
    0,                                          
    0,                                          
    0,                                          
    0,                                          
    0,                                          
    0,                                          
    0,                                          
    0,                                          
    0,                                          
    PyObject_GenericGetAttr,                    
    0,                                          
    0,                                          
    Py_TPFLAGS_DEFAULT | Py_TPFLAGS_HAVE_GC,
    0,                                          
    (traverseproc)listiter_traverse,            
    0,                                          
    0,                                          
    0,                                          
    PyObject_SelfIter,                          
    (iternextfunc)listiter_next,                
    listiter_methods,                           
    0,                                          
};

我们看到它的tp_iternext成员指向了listiter_next,证明迭代的时候调用的是这个函数。

static PyObject *
listiter_next(listiterobject *it)
{
    PyListObject *seq;  //列表
    PyObject *item;     //元素
    assert(it != NULL);
    //拿到具体对应的列表
    seq = it->it_seq;
    //如果seq为NULL,证明迭代器已经迭代完毕
    //否则它不会为NULL
    if (seq == NULL)
        return NULL;
    assert(PyList_Check(seq));
    //如果索引小于列表的长度,证明尚未迭代完毕
    if (it->it_index < PyList_GET_SIZE(seq)) {
      //通过索引获取指定元素
        item = PyList_GET_ITEM(seq, it->it_index);
      //it_index自增1
        ++it->it_index;
      //增加引用计数后返回
        Py_INCREF(item);
        return item;
    }
    //否则的话,说明此次索引正好已经超出最大范围
    //意味着迭代完毕了,将it_seq设置为NULL
    //并减少它的引用计数,然后返回
    it->it_seq = NULL;
    Py_DECREF(seq);
    return NULL;
}

显然这和我们之前分析的是一样的,以上我们就以列表为例,考察了迭代器的实现原理和元素迭代的具体过程。当然其它对象也有自己的迭代器,有兴趣可以自己看一看。

小结

到此,我们再次体会到了Python的设计哲学,通过PyObject

和ob_type实现了多态。原因就在于它们接收的不是对象本身,而是对象的PyObject

泛型指针。

不管变量obj指向什么样的可迭代对象,都可以交给iter函数,会调用类型对象内部的__iter__,底层是tp_iter,得到对应的迭代器。不管变量it指向什么样的迭代器,都可以交给next函数进行迭代,会调用迭代器的类型对象的__next__,底层是tp_iternext,将值迭代出来。

至于__iter__和__next__本身,每个迭代器都会有,我们这里只以列表的迭代器为例。

所以这是不是实现了多态呢?

这就是Python的设计哲学,变量只是一个指针,传递变量的时候相当于传递指针(将指针拷贝一份),但是操作一个变量的时候会自动操作变量(指针)指向的内存。

比如:a = 123; b = a,相当于把 a 拷贝了一份给 b,但 a 是一个指针,所以此时 a 和 b 保存的地址是相同的,也就是指向了同一个对象。但 a+b 的时候则不是两个指针相加,而是将a、b指向的对象进行相加,也就是操作变量会自动操作变量指向的内存。

因此在Python中,说传递方式是值传递或者引用传递都是不准确的,应该是变量的赋值传递,对象的引用传递。

到此这篇关于Python迭代器的实现原理的文章就介绍到这了,更多相关Python迭代器内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python迭代器的实现原理

本文链接: https://lsjlt.com/news/117926.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python迭代器的实现原理
    目录前言:迭代器的创建迭代器的底层结构迭代器是怎么迭代元素的?小结前言: 在Python里面,只要类型对象实现了__iter__,那么它的实例对象就被称为可迭代对象(Iterable...
    99+
    2024-04-02
  • 一文带你解密Python迭代器的实现原理
    目录可迭代对象与迭代器迭代器的创建迭代器的底层结构元素迭代的具体过程小结可迭代对象与迭代器 Python 一切皆对象,类型对象定义了哪些操作,决定了实例对象拥有哪些行为。 比如类型对...
    99+
    2022-12-14
    Python迭代器原理 Python迭代器
  • java迭代器实现的原理是什么
    Java迭代器的实现原理是基于设计模式中的迭代器模式。迭代器模式是一种行为型模式,它提供了一种方法来顺序访问一个聚合对象中的元素,而...
    99+
    2023-10-10
    java
  • 详解C++ 的STL迭代器原理和实现
    1. 迭代器简介 为了提高C++编程的效率,STL(Standard Template Library)中提供了许多容器,包括vector、list、map、set等。然而有些容器(...
    99+
    2024-04-02
  • 怎么解析C++ 的STL迭代器原理和实现
    怎么解析C++ 的STL迭代器原理和实现,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。1. 迭代器简介为了提高C++编程的效率,STL(Standar...
    99+
    2023-06-26
  • java迭代器原理及迭代map的四种方式
    目录迭代器原理: 什么是迭代器,使用迭代器的好处?迭代器怎么实现的?迭代器的陷阱?为什么会产生这样的错误?遍历map的四种方式 迭代器原理: 什么是迭代器,使用迭代器的好处? 迭代...
    99+
    2024-04-02
  • 图文详解牛顿迭代算法原理及Python实现
    目录1.引例2.牛顿迭代算法求根3.牛顿迭代优化4 代码实战:Logistic回归1.引例 给定如图所示的某个函数,如何计算函数零点x0 在数学上我们如何处理这个问题? 最简单的办...
    99+
    2024-04-02
  • Python中的迭代器是如何实现的?
    Python中的迭代器是如何实现的?迭代器是Python中非常重要的一个概念,它可以让我们方便地对集合中的元素进行遍历和访问。在Python中,几乎所有可迭代的对象,比如列表、元组、字典和集合等,都可以通过迭代器来进行遍历。那么迭代器是如何...
    99+
    2023-10-25
    Python 实现 (Implementation) 迭代器 (Iterator)
  • golang实现迭代器
    迭代器是一种常见的编程模式,可以帮助我们在遍历集合时更加方便地操作数据。Go语言是一门新型的编程语言,它提倡简洁、高效的设计理念,同时也支持迭代器这种常见的编程模式。本文将介绍如何使用Go语言实现迭代器。迭代器的定义首先,我们需要明确什么是...
    99+
    2023-05-15
  • python如何实现迭代器切片
    这篇文章给大家分享的是有关python如何实现迭代器切片的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。迭代器切片如果您尝试获取迭代器的切片,系统会报 TypeError,提示生成...
    99+
    2024-04-02
  • python返回迭代器怎么实现
    要实现一个返回迭代器的函数,可以使用生成器函数来实现。生成器函数是一种特殊的函数,可以在函数体中使用yield语句来产生值,每次调用...
    99+
    2023-09-28
    python
  • Python迭代器的原理是什么及怎么使用
    这篇文章主要介绍了Python迭代器的原理是什么及怎么使用的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python迭代器的原理是什么及怎么使用文章都会有所收获,下面我们一起来看看吧。什么是迭代器能被 next...
    99+
    2023-06-30
  • python迭代、可迭代对象、迭代器及生
    迭代 通常意义上的迭代是指:重复执行一系列运算,从前面的量依次推出后面的量的过程,每一次迭代的结果,会作为下一次迭代的初始值。 在c、c++、java等编程语言中的for循环语句,就是一个迭代过程,例如: for(int i=0;i&l...
    99+
    2023-01-30
    迭代 器及 对象
  • Python迭代和迭代器详解
    迭代器 迭代器(iterator)有时又称游标(cursor)是程式设计的软件设计模式,可在容器物件(container,例如链表或阵列)上遍访的界面,设计人员无需关心容器物件的内存分配的实现细节。 摘自维...
    99+
    2022-06-04
    迭代 详解 Python
  • 详解Python迭代和迭代器
    我们将要来学习python的重要概念迭代和迭代器,通过简单实用的例子如列表迭代器和xrange。 可迭代 一个对象,物理或者虚拟存储的序列。list,tuple,strins,dicttionary,set...
    99+
    2022-06-04
    迭代 详解 Python
  • python中可迭代对象的原理是什么
    这篇文章给大家介绍python中可迭代对象的原理是什么,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。python有哪些常用库python常用的库:1.requesuts;2.scrapy;3.pillow;4.twis...
    99+
    2023-06-14
  • python 迭代器
    我们已经知道,可以直接作用于for循环的数据类型有以下几种:一类是集合数据类型,如list、tuple、dict、set、str等;一类是generator,包括生成器和带yield的generator function。这些可以直接作用于...
    99+
    2023-01-30
    迭代 python
  • python迭代器
    迭代器可以直接作用for循环的数据类型我们已经知道,可以直接作用for循环的数据类型有以下几种:  一类是集合数据类型 如:list、tuple、dict、set、str等;  一类是generator,包括生成器和带yield的gener...
    99+
    2023-01-31
    迭代 python
  • python如何实现可链接迭代器
    小编给大家分享一下python如何实现可链接迭代器,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!可链接迭代器>>&g...
    99+
    2024-04-02
  • python迭代器资料整理
    相关概念定义 迭代器(Iterator): 满足迭代协议的对象就是迭代器 iterator就是实现了Iteration Protocol的对象,这类对象都支持循环遍历的操作(for/while/支持迭代的函数list() sum()....
    99+
    2023-01-31
    迭代 资料 python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作