Java 8 Stream API中间操作与终端操作详解 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Java 8 Stream API简介

Java 8 的发布为开发者带来了许多令人兴奋的新特性，其中最引人注目的当属Stream API。Stream API 是一种用于处理集合数据的强大工具，它不仅简化了代码的编写，还提高了代码的可读性和性能。Stream API 的设计理念借鉴了许多函数式编程语言的特点，如 Haskell 和 Scala，使得 Java 这门面向对象的语言也能享受到函数式编程的便利。

在传统的 Java 编程中，处理集合（如 List、Set 等）通常需要使用显式的循环结构（如 for 循环或 while 循环），并且这些操作往往涉及到多个步骤，例如过滤、映射和排序。这种写法虽然能够完成任务，但代码冗长且难以维护。而 Stream API 的出现，正是为了简化这些操作，让开发者可以用更简洁、更直观的方式处理集合数据。

Stream API 的核心思想是将集合数据流式化，允许我们通过一系列的中间操作（Intermediate Operations）对数据进行转换，最后通过一个终端操作（Terminal Operation）来获取结果。这种方式不仅使代码更加简洁，还能充分利用现代多核处理器的优势，实现并行处理，从而提高程序的性能。

在本文中，我们将深入探讨 Stream API 的中间操作和终端操作，帮助你理解如何使用这些功能来编写高效、优雅的代码。我们还会通过大量的代码示例和表格来展示不同操作的用法和效果，确保你能够在实际开发中灵活运用 Stream API。

无论你是刚刚接触 Java 8 的新手，还是已经熟悉这门语言的老手，本文都将为你提供有价值的见解和实用的技巧。让我们一起走进 Stream API 的世界，探索它的强大之处吧！

中间操作：什么是中间操作？

在 Stream API 中，中间操作（Intermediate Operations）是指那些可以链式调用的操作。它们不会立即执行，而是返回一个新的流（Stream），这个新流包含了经过该操作处理后的数据。只有当我们调用了终端操作时，整个流水线才会开始执行。这种延迟执行的特性使得我们可以构建复杂的操作链，而不会在每一步都产生不必要的开销。

中间操作的特点

惰性求值（Lazy Evaluation）：中间操作不会立即执行，而是等待终端操作触发。这意味着如果你的流中有多个中间操作，它们会按顺序依次执行，但在终端操作之前，所有的中间操作都不会真正处理数据。
返回新的流：每个中间操作都会返回一个新的流，而不是修改原来的流。这种不可变性设计有助于避免副作用，使得代码更加安全和易于理解。
可以链式调用：由于中间操作返回的是一个新的流，因此我们可以将多个中间操作链式调用，形成一个复杂的数据处理流水线。这种链式调用不仅使代码更加简洁，还提高了代码的可读性。
支持短路操作：某些中间操作（如 limit() 和 takeWhile()）可以在满足条件时提前终止流的处理，从而减少不必要的计算。

常见的中间操作

接下来，我们将介绍一些常见的中间操作，并通过代码示例来展示它们的用法。

操作名称	描述	示例
`filter(Predicate)`	根据给定的谓词（Predicate）筛选流中的元素，只保留符合条件的元素。	`stream.filter(x -> x > 5)`
`map(Function)`	将流中的每个元素通过给定的函数（Function）进行转换，生成新的元素。	`stream.map(x -> x * 2)`
`flatMap(Function)`	类似于 `map`，但它会将每个元素映射为一个流，然后将这些流展平为一个单一的流。	`stream.flatMap(x -> Arrays.stream(x.split(" ")))`
`sorted(Comparator)`	对流中的元素进行排序，默认按自然顺序排序，也可以传入自定义的比较器（Comparator）。	`stream.sorted((x, y) -> x.compareTo(y))`
`distinct()`	去除流中的重复元素。	`stream.distinct()`
`limit(long n)`	截取流中的前 n 个元素。	`stream.limit(10)`
`skip(long n)`	跳过流中的前 n 个元素。	`stream.skip(5)`
`peek(Consumer)`	对流中的每个元素执行指定的操作，主要用于调试。	`stream.peek(System.out::println)`

代码示例

下面是一个简单的例子，展示了如何使用多个中间操作来处理一个整数列表：

import java.util.Arrays;
import java.util.List;
import java.util.stream.Collectors;

public class IntermediateOperationsExample {
    public static void main(String[] args) {
        List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);

        // 使用多个中间操作处理数据
        List<Integer> result = numbers.stream()
                .filter(n -> n % 2 == 0)  // 只保留偶数
                .map(n -> n * 2)          // 将每个偶数乘以2
                .sorted()                 // 对结果进行排序
                .collect(Collectors.toList());  // 终端操作，收集结果

        System.out.println(result);  // 输出: [4, 8, 12, 16, 20]
    }
}

在这个例子中，我们首先创建了一个包含 1 到 10 的整数列表。然后，我们使用 stream() 方法将列表转换为流，并依次应用了 filter()、map() 和 sorted() 中间操作。最后，我们通过 collect() 终端操作将处理后的结果收集到一个新的列表中。

需要注意的是，尽管我们在代码中定义了多个中间操作，但它们并不会立即执行。只有当我们调用 collect() 时，整个流水线才会开始执行。这就是中间操作的惰性求值特性。

惰性求值的好处

惰性求值的最大好处在于它可以避免不必要的计算。假设我们有一个非常大的数据集，并且我们只想从中提取前 10 个符合条件的元素。如果我们使用传统的循环结构，可能会遍历整个数据集，即使我们只需要前 10 个元素。而在 Stream API 中，我们可以使用 filter() 和 limit() 中间操作来实现这一点，Stream API 会在找到第 10 个符合条件的元素后自动停止处理，从而节省了大量的计算资源。

import java.util.stream.LongStream;

public class LazyEvaluationExample {
    public static void main(String[] args) {
        // 生成一个无限流，并只取前 10 个偶数
        LongStream infiniteStream = LongStream.iterate(1, n -> n + 1);
        List<Long> firstTenEvens = infiniteStream
                .filter(n -> n % 2 == 0)
                .limit(10)
                .boxed()
                .collect(Collectors.toList());

        System.out.println(firstTenEvens);  // 输出: [2, 4, 6, 8, 10, 12, 14, 16, 18, 20]
    }
}

在这个例子中，我们使用 LongStream.iterate() 生成了一个无限流，并通过 filter() 和 limit() 来提取前 10 个偶数。由于 Stream API 的惰性求值特性，它只会遍历到第 20 个元素（即第 10 个偶数），而不会继续遍历整个无限流。

终端操作：什么是终端操作？

与中间操作不同，终端操作（Terminal Operations）是流处理流水线的最后一个环节。一旦我们调用了终端操作，整个流水线就会开始执行，并返回最终的结果。终端操作会消耗流中的所有元素，并且流在终端操作之后不能再被使用。因此，如果你想对同一个流进行多次操作，必须重新创建流。

终端操作的特点

立即执行：终端操作会立即触发整个流水线的执行，所有的中间操作都会在这一步骤中依次执行。
消耗流：终端操作会消耗流中的所有元素，流在终端操作之后不能再被使用。如果需要对同一个流进行多次操作，必须重新创建流。
返回结果：终端操作通常会返回一个结果，这个结果可以是一个集合、一个值、一个布尔值，甚至是 void。具体返回什么取决于你使用的终端操作类型。
不能链式调用：由于终端操作会消耗流，因此它不能与其他操作链式调用。你只能在一个流上调用一次终端操作。

常见的终端操作

接下来，我们将介绍一些常见的终端操作，并通过代码示例来展示它们的用法。

操作名称	描述	示例
`forEach(Consumer)`	对流中的每个元素执行指定的操作。	`stream.forEach(System.out::println)`
`collect(Collector)`	将流中的元素收集到一个集合或其他容器中。	`stream.collect(Collectors.toList())`
`reduce(BinaryOperator)`	对流中的元素进行累积操作，返回一个单一的结果。	`stream.reduce((a, b) -> a + b)`
`count()`	返回流中元素的数量。	`stream.count()`
`anyMatch(Predicate)`	如果流中至少有一个元素满足给定的谓词，则返回 `true`。	`stream.anyMatch(x -> x > 5)`
`allMatch(Predicate)`	如果流中的所有元素都满足给定的谓词，则返回 `true`。	`stream.allMatch(x -> x > 0)`
`noneMatch(Predicate)`	如果流中没有任何元素满足给定的谓词，则返回 `true`。	`stream.noneMatch(x -> x < 0)`
`findFirst()`	返回流中的第一个元素，如果没有元素则返回空的 `Optional`。	`stream.findFirst()`
`findAny()`	返回流中的任意一个元素，如果没有元素则返回空的 `Optional`。	`stream.findAny()`
`max(Comparator)`	返回流中最大的元素，根据给定的比较器。	`stream.max(Integer::compare)`
`min(Comparator)`	返回流中最小的元素，根据给定的比较器。	`stream.min(Integer::compare)`

代码示例

下面是一个简单的例子，展示了如何使用不同的终端操作来处理一个字符串列表：

import java.util.Arrays;
import java.util.List;
import java.util.Optional;
import java.util.stream.Collectors;

public class TerminalOperationsExample {
    public static void main(String[] args) {
        List<String> words = Arrays.asList("apple", "banana", "orange", "grape", "pear");

        // 使用 forEach 打印每个元素
        words.stream().forEach(System.out::println);

        // 使用 collect 将流中的元素收集到一个新的列表中
        List<String> upperCaseWords = words.stream()
                .map(String::toUpperCase)
                .collect(Collectors.toList());
        System.out.println(upperCaseWords);  // 输出: [APPLE, BANANA, ORANGE, GRAPE, PEAR]

        // 使用 reduce 计算所有单词长度的总和
        int totalLength = words.stream()
                .mapToInt(String::length)
                .reduce(0, Integer::sum);
        System.out.println("Total length of all words: " + totalLength);  // 输出: 25

        // 使用 count 统计流中元素的数量
        long count = words.stream().count();
        System.out.println("Number of words: " + count);  // 输出: 5

        // 使用 anyMatch 检查是否有单词长度大于 5
        boolean hasLongWord = words.stream().anyMatch(word -> word.length() > 5);
        System.out.println("Has any word longer than 5 characters? " + hasLongWord);  // 输出: true

        // 使用 findFirst 获取流中的第一个元素
        Optional<String> firstWord = words.stream().findFirst();
        firstWord.ifPresent(System.out::println);  // 输出: apple

        // 使用 max 找到最长的单词
        Optional<String> longestWord = words.stream().max((w1, w2) -> w1.length() - w2.length());
        longestWord.ifPresent(System.out::println);  // 输出: banana
    }
}

在这个例子中，我们使用了多种终端操作来处理一个字符串列表。forEach() 用于打印每个元素，collect() 用于将流中的元素收集到一个新的列表中，reduce() 用于计算所有单词长度的总和，count() 用于统计流中元素的数量，anyMatch() 用于检查是否有单词长度大于 5，findFirst() 用于获取流中的第一个元素，max() 用于找到最长的单词。

终端操作的分类

终端操作可以根据其返回类型分为两类：非短路操作和短路操作。

非短路操作：这类操作会遍历流中的所有元素，直到流结束。常见的非短路操作包括 forEach()、collect()、reduce() 和 count()。
短路操作：这类操作可以在满足条件时提前终止流的处理，而不需要遍历所有元素。常见的短路操作包括 anyMatch()、allMatch()、noneMatch()、findFirst() 和 findAny()。

短路操作的引入使得我们可以在处理大体量数据时，避免不必要的计算，从而提高程序的性能。

性能优化：并行流

除了普通的顺序流，Stream API 还支持并行流（Parallel Streams）。并行流可以利用多核处理器的优势，将数据分片并行处理，从而显著提高处理速度。要创建一个并行流，只需在调用 stream() 方法时使用 parallelStream() 即可。

import java.util.Arrays;
import java.util.List;
import java.util.stream.Collectors;

public class ParallelStreamExample {
    public static void main(String[] args) {
        List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);

        // 使用并行流处理数据
        List<Integer> result = numbers.parallelStream()
                .map(n -> n * 2)
                .filter(n -> n > 10)
                .collect(Collectors.toList());

        System.out.println(result);  // 输出: [12, 14, 16, 18, 20]
    }
}

需要注意的是，并行流并不总是比顺序流快。对于小规模数据集，使用并行流可能会带来额外的开销，反而降低性能。因此，在使用并行流时，建议先评估数据量和计算复杂度，选择最适合的处理方式。

中间操作与终端操作的组合使用

在实际开发中，我们通常会将多个中间操作和一个终端操作组合在一起，形成一个完整的流处理流水线。通过合理地组合中间操作和终端操作，我们可以编写出简洁、高效的代码，同时避免不必要的计算。

示例 1：查找最长的单词

假设我们有一个字符串列表，想要找到其中最长的单词。我们可以使用 map()、sorted() 和 findFirst() 来实现这一目标：

import java.util.Arrays;
import java.util.List;
import java.util.Optional;

public class FindLongestWordExample {
    public static void main(String[] args) {
        List<String> words = Arrays.asList("apple", "banana", "orange", "grape", "pear");

        // 查找最长的单词
        Optional<String> longestWord = words.stream()
                .sorted((w1, w2) -> w2.length() - w1.length())  // 按长度降序排序
                .findFirst();                                  // 获取第一个元素

        longestWord.ifPresent(System.out::println);  // 输出: banana
    }
}

在这个例子中，我们首先使用 sorted() 按照单词长度降序排序，然后使用 findFirst() 获取排序后的第一个元素，即最长的单词。由于 sorted() 是一个中间操作，它不会立即执行，而是在 findFirst() 触发时才开始排序。此外，findFirst() 是一个短路操作，因此它只会遍历到第一个符合条件的元素，而不会继续遍历整个流。

示例 2：计算平均值

假设我们有一个整数列表，想要计算其中所有元素的平均值。我们可以使用 mapToDouble()、filter() 和 average() 来实现这一目标：

import java.util.Arrays;
import java.util.List;
import java.util.OptionalDouble;

public class CalculateAverageExample {
    public static void main(String[] args) {
        List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);

        // 计算所有偶数的平均值
        OptionalDouble average = numbers.stream()
                .filter(n -> n % 2 == 0)  // 只保留偶数
                .mapToDouble(Double::valueOf)  // 将整数转换为双精度浮点数
                .average();                   // 计算平均值

        if (average.isPresent()) {
            System.out.println("Average of even numbers: " + average.getAsDouble());  // 输出: 6.0
        } else {
            System.out.println("No even numbers found.");
        }
    }
}

在这个例子中，我们首先使用 filter() 筛选出所有的偶数，然后使用 mapToDouble() 将整数转换为双精度浮点数，最后使用 average() 计算平均值。average() 是一个终端操作，它会返回一个 OptionalDouble，表示可能存在的平均值。如果流中没有任何元素，则返回空的 OptionalDouble。

示例 3：去重并排序

假设我们有一个包含重复元素的整数列表，想要去除重复元素并对结果进行排序。我们可以使用 distinct() 和 sorted() 来实现这一目标：

import java.util.Arrays;
import java.util.List;
import java.util.stream.Collectors;

public class DistinctAndSortExample {
    public static void main(String[] args) {
        List<Integer> numbers = Arrays.asList(1, 2, 2, 3, 4, 4, 5, 6, 6, 7, 8, 8, 9, 10, 10);

        // 去重并排序
        List<Integer> distinctSortedNumbers = numbers.stream()
                .distinct()  // 去重
                .sorted()    // 排序
                .collect(Collectors.toList());  // 收集结果

        System.out.println(distinctSortedNumbers);  // 输出: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
    }
}

在这个例子中，我们首先使用 distinct() 去除重复元素，然后使用 sorted() 对结果进行排序，最后使用 collect() 将处理后的结果收集到一个新的列表中。distinct() 和 sorted() 都是中间操作，它们不会立即执行，而是在 collect() 触发时才开始处理。

总结与最佳实践

通过本文的学习，我们深入了解了 Java 8 Stream API 中的中间操作和终端操作。中间操作允许我们对流中的数据进行转换和筛选，而终端操作则负责触发整个流水线的执行并返回最终结果。Stream API 的惰性求值特性使得我们可以构建复杂的操作链，而不会在每一步都产生不必要的开销。此外，Stream API 还支持并行处理，能够充分利用多核处理器的优势，提高程序的性能。

在实际开发中，合理地组合中间操作和终端操作可以帮助我们编写出简洁、高效的代码。以下是一些使用 Stream API 的最佳实践：

尽量使用中间操作：通过合理地使用中间操作，我们可以将复杂的数据处理逻辑分解为多个简单的步骤，从而使代码更加清晰易懂。
避免不必要的中间操作：虽然中间操作可以链式调用，但过多的中间操作可能会导致代码难以维护。因此，我们应该尽量减少不必要的中间操作，保持代码的简洁性。
选择合适的终端操作：不同的终端操作适用于不同的场景。例如，forEach() 适用于遍历流中的每个元素，而 collect() 适用于将流中的元素收集到一个集合中。我们应该根据具体的需求选择最合适的终端操作。
考虑性能问题：对于大规模数据集，使用并行流可以显著提高处理速度。然而，并行流并不总是比顺序流快，因此我们应该根据数据量和计算复杂度选择最适合的处理方式。
利用短路操作：短路操作可以在满足条件时提前终止流的处理，从而减少不必要的计算。例如，anyMatch() 和 findFirst() 都是短路操作，适用于快速查找符合条件的元素。
避免副作用：Stream API 的设计原则之一是不可变性，因此我们应该尽量避免在中间操作中修改流中的元素。如果需要修改元素，应该使用 map() 或 flatMap() 创建新的元素，而不是直接修改原始元素。

总之，Stream API 是 Java 8 中一项非常强大的工具，它不仅简化了集合数据的处理，还提高了代码的可读性和性能。通过掌握中间操作和终端操作的用法，我们可以在日常开发中更加高效地处理各种数据集。希望本文的内容能够帮助你在实际项目中更好地运用 Stream API，编写出更加优雅的代码！

Java 8 Stream API简介

中间操作：什么是中间操作？

中间操作的特点

常见的中间操作

代码示例

惰性求值的好处

终端操作：什么是终端操作？

终端操作的特点

常见的终端操作

代码示例

终端操作的分类

性能优化：并行流

中间操作与终端操作的组合使用

示例 1：查找最长的单词

示例 2：计算平均值

示例 3：去重并排序

总结与最佳实践

发表回复 取消回复

发表回复取消回复