迭代器与生成器：惰性求值与数据流

开场白 ?

大家好，欢迎来到今天的讲座！今天我们要聊的是 Python 中的两个重要概念：迭代器（Iterator） 和 生成器（Generator）。这两个概念虽然听起来有点高大上，但其实它们就像是你每天都在用的“懒人神器”，能让你在处理大量数据时更加高效和优雅。

如果你曾经写过类似 for i in range(1000000): 的代码，那你一定知道，当数据量非常大的时候，内存可能会被撑爆。这时候，迭代器和生成器就能派上用场了！它们的核心思想是 惰性求值（Lazy Evaluation），也就是“不着急计算，等需要的时候再算”。

好了，废话不多说，让我们直接进入正题吧！

什么是迭代器？ ?

定义

迭代器是一个可以记住遍历位置的对象。它实现了两个方法：

__iter__()：返回迭代器对象本身。
__next__()：返回序列中的下一个元素，如果没有更多元素则抛出 StopIteration 异常。

简单来说，迭代器就是一个“按需生产”的工具，它不会一次性把所有数据都加载到内存中，而是每次只给你一个元素，直到没有更多的元素为止。

示例代码

class MyIterator:
    def __init__(self, data):
        self.data = data
        self.index = 0

    def __iter__(self):
        return self

    def __next__(self):
        if self.index < len(self.data):
            result = self.data[self.index]
            self.index += 1
            return result
        else:
            raise StopIteration

# 使用迭代器
my_iter = MyIterator([1, 2, 3, 4, 5])
for item in my_iter:
    print(item)

输出：

迭代器的好处

节省内存：迭代器不会一次性将所有数据加载到内存中，因此非常适合处理大数据集。
惰性求值：只有在需要时才会计算下一个元素，避免了不必要的计算。
无限序列：理论上，迭代器可以生成无限长的序列，因为你不需要预先知道它的长度。

什么是生成器？ ?

定义

生成器是一种特殊的迭代器，但它更简单、更易用。生成器函数使用 yield 关键字来返回值，而不是像普通函数那样使用 return。每次调用 yield 时，函数会暂停执行，并保存当前的状态，等到下一次调用时从上次暂停的地方继续执行。

生成器的本质是一个“自动化的迭代器”，它帮你省去了手动实现 __iter__ 和 __next__ 的麻烦。

示例代码

def my_generator():
    yield 1
    yield 2
    yield 3

# 使用生成器
gen = my_generator()
for item in gen:
    print(item)

输出：

1
2
3

生成器的好处

简洁：生成器的语法比手动实现迭代器要简洁得多，只需要使用 yield 就可以创建一个迭代器。
状态保存：生成器会自动保存函数的执行状态，因此你可以随时暂停和恢复执行。
惰性求值：和迭代器一样，生成器也是惰性求值的，只有在需要时才会生成下一个值。

惰性求值的魅力 ?

惰性求值是迭代器和生成器的核心特性之一。它意味着你可以在需要的时候才计算某个值，而不是一开始就全部计算好。这在处理大数据时尤其有用，因为你可以避免一次性将所有数据加载到内存中。

惰性求值的典型场景

处理无限序列：想象一下，如果你要生成一个从 1 到无穷大的数列，显然你不能一次性生成所有的数字。但是，使用生成器，你可以轻松地生成这个无限序列，而不会占用过多的内存。
```
def infinite_sequence():
   num = 0
   while True:
       yield num
       num += 1

# 只取前 10 个数字
for i in infinite_sequence():
   if i >= 10:
       break
   print(i)
```

链式操作：惰性求值还可以让你在多个操作之间进行链式调用，而不会一次性计算所有的中间结果。例如，假设你想对一个列表进行过滤、映射和排序，使用生成器可以让这些操作按需执行，而不是一次性完成。

def filter_even(numbers):
   for num in numbers:
       if num % 2 == 0:
           yield num

def square_numbers(numbers):
   for num in numbers:
       yield num ** 2

# 链式操作
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
even_squares = square_numbers(filter_even(numbers))

for num in even_squares:
   print(num)

输出：

数据流与管道模式 ?️

生成器不仅适用于单个操作，还可以用来构建复杂的数据流。通过将多个生成器串联起来，你可以创建一个“管道”，数据会在管道中逐层传递和处理。这种方式非常适合处理大规模数据流，因为它可以避免一次性加载所有数据到内存中。

管道模式示例

假设我们有一个日志文件，每一行包含一条日志信息。我们希望从中提取出特定格式的日志，并对其进行一些处理。我们可以使用生成器来构建一个管道，逐步处理这些日志。

def read_log_file(filename):
    with open(filename, 'r') as file:
        for line in file:
            yield line.strip()

def filter_logs(logs, keyword):
    for log in logs:
        if keyword in log:
            yield log

def process_logs(logs):
    for log in logs:
        # 假设我们想统计每条日志的长度
        yield len(log)

# 构建管道
log_file = 'server.log'
keyword = 'ERROR'

log_lines = read_log_file(log_file)
filtered_logs = filter_logs(log_lines, keyword)
processed_logs = process_logs(filtered_logs)

# 处理结果
for length in processed_logs:
    print(f"Log length: {length}")

在这个例子中，read_log_file 读取日志文件，filter_logs 过滤出包含特定关键字的日志，process_logs 对每条日志进行处理（例如计算日志的长度）。整个过程是惰性求值的，只有在需要时才会读取和处理日志，因此即使日志文件非常大，也不会占用过多的内存。

总结 ?

今天我们一起探讨了 Python 中的迭代器和生成器，了解了它们如何通过惰性求值来高效处理数据流。迭代器和生成器不仅可以帮助我们节省内存，还能让代码更加简洁和优雅。

迭代器 是一种可以记住遍历位置的对象，适合处理大数据集。
生成器 是一种特殊的迭代器，使用 yield 关键字来实现，语法更加简洁。
惰性求值 是它们的核心特性，只有在需要时才会计算下一个值。
管道模式 让我们可以构建复杂的数据流，逐步处理数据，而不会一次性加载所有数据到内存中。

希望今天的讲座对你有所帮助！如果你有任何问题，欢迎随时提问。?

参考资料

Python 官方文档中关于迭代器和生成器的详细说明。
《Fluent Python》一书中有关于迭代器和生成器的深入讲解。
《Python Cookbook》中提供了许多实用的迭代器和生成器的使用案例。

谢谢大家的聆听！下次再见！?

迭代器与生成器：惰性求值与数据流

开场白 ?

什么是迭代器？ ?

定义

示例代码

迭代器的好处

什么是生成器？ ?

定义

示例代码

生成器的好处

惰性求值的魅力 ?

惰性求值的典型场景

数据流与管道模式 ?️

管道模式示例

总结 ?

参考资料

发表回复 取消回复

发表回复取消回复