Java Apache PDFBox生成与解析PDF文档 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

介绍

大家好，欢迎来到今天的讲座！今天我们要聊的是Java中一个非常强大的工具——Apache PDFBox。如果你曾经有过处理PDF文档的需求，无论是生成、解析还是修改，你一定知道这并不是一件轻松的事情。PDF格式本身复杂且多变，涉及到的内容从文本、图像到表格、表单，甚至还有多媒体元素。幸运的是，Apache PDFBox为我们提供了一套完整的API，帮助我们轻松应对这些挑战。

在接下来的时间里，我们将深入探讨如何使用Apache PDFBox来生成和解析PDF文档。我们会通过一些实际的代码示例，一步步带你了解这个库的强大功能。无论你是刚刚接触PDF处理的新手，还是已经有了一些经验的老手，相信今天的讲座都会让你有所收获。

首先，让我们简单介绍一下Apache PDFBox的历史和发展。Apache PDFBox是一个开源的Java库，由Apache Software Foundation维护。它最初是由Ben Litchfield于2002年创建的，旨在为开发者提供一个简单易用的PDF处理工具。经过多年的发展，PDFBox已经成为了一个功能丰富、性能优异的PDF处理库，广泛应用于各种企业和个人项目中。

那么，为什么选择PDFBox呢？首先，PDFBox是纯Java实现的，这意味着它可以无缝集成到任何Java项目中，而不需要依赖其他语言或平台。其次，PDFBox提供了丰富的API，涵盖了PDF文档的几乎所有方面，包括创建、修改、解析、加密、解密等。最重要的是，PDFBox是开源的，社区活跃，文档齐全，遇到问题时可以很容易找到解决方案。

接下来，我们将分为几个部分来详细讲解PDFBox的使用方法。首先是环境搭建，确保你能够顺利地将PDFBox集成到你的项目中；然后是生成PDF文档，学习如何从头开始创建一个PDF文件；接着是解析PDF文档，了解如何读取和提取PDF中的内容；最后，我们会讨论一些高级功能，如表单处理、加密解密等。每个部分都会有详细的代码示例和解释，帮助你更好地理解和掌握这些知识。

好了，废话不多说，让我们直接进入正题吧！

环境搭建

在开始使用Apache PDFBox之前，我们需要先准备好开发环境。别担心，这个过程其实非常简单。假设你已经安装了JDK（Java Development Kit），并且熟悉如何使用Maven或Gradle来管理项目依赖。如果你还没有安装JDK，建议下载并安装最新版本的JDK，以确保最佳的兼容性和性能。

使用Maven添加PDFBox依赖

如果你使用的是Maven项目，只需在pom.xml文件中添加以下依赖项：

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.27</version>
</dependency>

这里我们选择了2.0.27版本，这是截至本文写作时的最新稳定版本。当然，你可以根据需要选择其他版本。Maven会自动下载并配置PDFBox及其相关依赖，非常方便。

使用Gradle添加PDFBox依赖

如果你使用的是Gradle项目，可以在build.gradle文件中添加以下依赖项：

dependencies {
    implementation 'org.apache.pdfbox:pdfbox:2.0.27'
}

同样，Gradle会自动处理依赖关系，确保PDFBox被正确引入到你的项目中。

手动下载PDFBox JAR包

如果你不使用Maven或Gradle，也可以手动下载PDFBox的JAR包。你可以从Apache官网下载最新的PDFBox发布版本，解压后将pdfbox-2.0.27.jar文件添加到你的项目中。同时，别忘了下载并添加PDFBox所需的依赖库，如commons-logging、fontbox等。这些依赖库通常会与PDFBox一起打包，确保你没有遗漏任何一个。

验证环境

为了确保PDFBox已经成功集成到你的项目中，我们可以编写一个简单的测试程序，尝试加载一个现有的PDF文件并打印其页数。这是一个非常基础的操作，但可以帮助我们确认一切正常。

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;

public class PdfBoxTest {
    public static void main(String[] args) {
        try {
            // 加载现有的PDF文件
            PDDocument document = PDDocument.load(new File("example.pdf"));

            // 获取文档的总页数
            int numberOfPages = document.getNumberOfPages();
            System.out.println("PDF文件共有 " + numberOfPages + " 页");

            // 关闭文档
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

这段代码非常简单，但它展示了PDFBox的基本用法。我们首先通过PDDocument.load()方法加载一个现有的PDF文件，然后使用getNumberOfPages()方法获取文档的总页数，最后别忘了调用close()方法关闭文档，释放资源。

如果你运行这段代码并且没有任何错误，恭喜你，PDFBox已经成功集成到你的项目中了！接下来，我们可以开始探索更多有趣的功能。

生成PDF文档

现在我们已经成功搭建了开发环境，接下来让我们看看如何使用PDFBox生成一个全新的PDF文档。生成PDF的过程相对简单，但涉及到多个步骤，包括创建文档、添加页面、设置字体和颜色、绘制文本和图形等。为了让大家更容易理解，我们将通过一个具体的例子来逐步讲解。

创建一个简单的PDF文档

首先，我们来创建一个最基础的PDF文档，里面只包含一行文本。这个例子将帮助我们熟悉PDFBox的核心API。

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDPageContentStream;
import org.apache.pdfbox.pdmodel.font.PDType1Font;

import java.io.File;
import java.io.IOException;

public class CreateSimplePdf {
    public static void main(String[] args) {
        try {
            // 创建一个新的PDF文档
            PDDocument document = new PDDocument();

            // 创建一个A4大小的页面
            PDPage page = new PDPage();
            document.addPage(page);

            // 创建一个内容流，用于在页面上绘制内容
            PDPageContentStream contentStream = new PDPageContentStream(document, page);

            // 设置字体和字号
            contentStream.setFont(PDType1Font.HELVETICA_BOLD, 12);

            // 设置文本的颜色
            contentStream.setNonStrokingColor(0, 0, 255); // 蓝色

            // 在页面上绘制文本
            contentStream.beginText();
            contentStream.newLineAtOffset(100, 700); // 设置文本的起始位置
            contentStream.showText("Hello, PDFBox!");
            contentStream.endText();

            // 关闭内容流
            contentStream.close();

            // 将文档保存到文件
            document.save("simple-pdf.pdf");

            // 关闭文档
            document.close();

            System.out.println("PDF文档已成功创建！");
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

这段代码展示了生成PDF文档的基本流程：

创建文档：使用PDDocument类创建一个新的PDF文档。
添加页面：使用PDPage类创建一个新页面，并将其添加到文档中。
创建内容流：使用PDPageContentStream类创建一个内容流，用于在页面上绘制内容。
设置字体和颜色：使用setFont()和setNonStrokingColor()方法设置文本的字体和颜色。
绘制文本：使用beginText()、newLineAtOffset()和showText()方法在页面上绘制文本。
保存文档：使用save()方法将文档保存到指定的文件路径。
关闭文档：使用close()方法关闭文档，释放资源。

运行这段代码后，你会在项目的根目录下看到一个名为simple-pdf.pdf的文件，打开它，你会发现里面有一行蓝色的文本：“Hello, PDFBox!”。虽然这个例子非常简单，但它涵盖了生成PDF文档的基本步骤。

添加多页和多段文本

接下来，我们来扩展一下这个例子，尝试在一个PDF文档中添加多页，并在每页上绘制多段文本。为了使代码更加简洁，我们可以使用循环来重复创建页面和绘制文本。

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDPageContentStream;
import org.apache.pdfbox.pdmodel.font.PDType1Font;

import java.io.File;
import java.io.IOException;

public class CreateMultiPagePdf {
    public static void main(String[] args) {
        try {
            // 创建一个新的PDF文档
            PDDocument document = new PDDocument();

            // 定义要绘制的文本内容
            String[] lines = {
                "第一页的第一段文本。",
                "第一页的第二段文本。",
                "第二页的第一段文本。",
                "第二页的第二段文本。"
            };

            // 定义每页的最大行数
            int maxLinesPerPage = 2;

            // 定义每行的高度
            float lineHeight = 20;

            // 定义文本的起始位置
            float startX = 100;
            float startY = 700;

            // 循环遍历文本内容，按页绘制
            for (int i = 0; i < lines.length; ) {
                // 创建一个新页面
                PDPage page = new PDPage();
                document.addPage(page);

                // 创建内容流
                PDPageContentStream contentStream = new PDPageContentStream(document, page);

                // 设置字体和字号
                contentStream.setFont(PDType1Font.HELVETICA_BOLD, 12);

                // 设置文本的颜色
                contentStream.setNonStrokingColor(0, 0, 255); // 蓝色

                // 绘制当前页的文本
                for (int j = 0; j < maxLinesPerPage && i < lines.length; j++, i++) {
                    contentStream.beginText();
                    contentStream.newLineAtOffset(startX, startY - j * lineHeight);
                    contentStream.showText(lines[i]);
                    contentStream.endText();
                }

                // 关闭内容流
                contentStream.close();
            }

            // 将文档保存到文件
            document.save("multi-page-pdf.pdf");

            // 关闭文档
            document.close();

            System.out.println("多页PDF文档已成功创建！");
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在这个例子中，我们定义了一个字符串数组lines，其中包含了要在PDF文档中绘制的文本内容。我们还设置了每页的最大行数maxLinesPerPage，以及每行的高度lineHeight。通过循环遍历lines数组，我们可以逐页绘制文本，直到所有文本都被绘制完毕。

运行这段代码后，你会得到一个包含两页的PDF文档，每页上有两段文本。这个例子展示了如何在PDF文档中添加多页，并在每页上绘制多段文本。

添加图像

除了文本，PDF文档还可以包含图像。PDFBox提供了PDImageXObject类，用于将图像嵌入到PDF文档中。接下来，我们来看看如何在PDF文档中添加一张图片。

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDPageContentStream;
import org.apache.pdfbox.pdmodel.font.PDType1Font;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;

import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import javax.imageio.ImageIO;

public class CreatePdfWithImage {
    public static void main(String[] args) {
        try {
            // 创建一个新的PDF文档
            PDDocument document = new PDDocument();

            // 创建一个A4大小的页面
            PDPage page = new PDPage();
            document.addPage(page);

            // 创建一个内容流
            PDPageContentStream contentStream = new PDPageContentStream(document, page);

            // 设置字体和字号
            contentStream.setFont(PDType1Font.HELVETICA_BOLD, 12);

            // 设置文本的颜色
            contentStream.setNonStrokingColor(0, 0, 255); // 蓝色

            // 在页面上绘制文本
            contentStream.beginText();
            contentStream.newLineAtOffset(100, 700); // 设置文本的起始位置
            contentStream.showText("这是一张图片！");
            contentStream.endText();

            // 加载图像
            BufferedImage image = ImageIO.read(new File("example.png"));
            PDImageXObject pdImage = PDImageXObject.createFromFileByContent(image, document);

            // 在页面上绘制图像
            contentStream.drawImage(pdImage, 100, 500, 300, 200); // 设置图像的位置和大小

            // 关闭内容流
            contentStream.close();

            // 将文档保存到文件
            document.save("pdf-with-image.pdf");

            // 关闭文档
            document.close();

            System.out.println("带图片的PDF文档已成功创建！");
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在这个例子中，我们使用ImageIO.read()方法加载了一张PNG格式的图像，并通过PDImageXObject.createFromFileByContent()方法将其转换为PDFBox可以使用的图像对象。然后，我们使用drawImage()方法将图像绘制到PDF页面上，并指定了图像的位置和大小。

运行这段代码后，你会得到一个包含文本和图片的PDF文档。这个例子展示了如何在PDF文档中添加图像，进一步丰富了文档的内容。

解析PDF文档

生成PDF文档固然重要，但在很多情况下，我们还需要从现有的PDF文档中提取信息。PDFBox提供了强大的解析功能，可以帮助我们轻松地读取PDF中的文本、图像、表格等内容。接下来，我们将详细介绍如何使用PDFBox解析PDF文档。

提取文本

提取PDF中的文本是最常见的操作之一。PDFBox提供了PDFTextStripper类，专门用于从PDF文档中提取文本。下面是一个简单的例子，展示如何从PDF文件中提取所有文本并打印出来。

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class ExtractTextFromPdf {
    public static void main(String[] args) {
        try {
            // 加载现有的PDF文件
            PDDocument document = PDDocument.load(new File("example.pdf"));

            // 创建一个PDFTextStripper对象
            PDFTextStripper pdfStripper = new PDFTextStripper();

            // 提取文本
            String text = pdfStripper.getText(document);

            // 打印提取的文本
            System.out.println(text);

            // 关闭文档
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

这段代码非常简单，但我们可以通过PDFTextStripper类的其他方法来进一步定制提取行为。例如，如果你想只提取某几页的文本，可以使用setStartPage()和setEndPage()方法：

pdfStripper.setStartPage(1);
pdfStripper.setEndPage(3);

此外，PDFTextStripper还提供了sort属性，用于控制是否按照页面顺序提取文本。默认情况下，文本是按页面顺序提取的，但如果PDF文档中有复杂的布局，可能会导致提取的文本顺序混乱。此时，你可以启用排序功能：

pdfStripper.setSortByPosition(true);

提取图像

除了文本，PDF文档中还可能包含图像。PDFBox提供了PDResources类，用于访问PDF页面中的资源，包括图像。下面是一个例子，展示如何从PDF文档中提取所有图像并保存到本地文件。

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;

import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import javax.imageio.ImageIO;

public class ExtractImagesFromPdf {
    public static void main(String[] args) {
        try {
            // 加载现有的PDF文件
            PDDocument document = PDDocument.load(new File("example.pdf"));

            // 遍历所有页面
            for (int i = 0; i < document.getNumberOfPages(); i++) {
                PDPage page = document.getPage(i);
                PDResources resources = page.getResources();

                // 获取页面中的所有图像
                for (COSName cosName : resources.getXObjectNames()) {
                    if (resources.isImageXObject(cosName)) {
                        PDImageXObject image = (PDImageXObject) resources.getXObject(cosName);

                        // 将图像保存到本地文件
                        BufferedImage bImage = image.getImage();
                        File outputFile = new File("image-" + i + "-" + cosName.getName() + ".png");
                        ImageIO.write(bImage, "png", outputFile);

                        System.out.println("图像已保存到: " + outputFile.getAbsolutePath());
                    }
                }
            }

            // 关闭文档
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在这个例子中，我们遍历了PDF文档中的所有页面，并使用PDResources类获取每个页面的资源。然后，我们检查每个资源是否是图像对象，如果是，则将其保存为PNG文件。这个例子展示了如何从PDF文档中提取图像，并将其保存到本地文件系统中。

提取表格

PDF文档中的表格通常是通过绘制线条和文本框来实现的，因此直接提取表格结构并不容易。不过，PDFBox提供了一些工具，可以帮助我们识别表格中的数据。例如，PDFTextStripper类可以用于提取表格中的文本，而PDRectangle类可以用于识别表格的边界。

如果你需要更复杂的表格解析功能，可以考虑使用第三方库，如Tabula或Apache Tika。这些库专门用于从PDF文档中提取表格数据，并提供了更强大的解析能力。

高级功能

除了生成和解析PDF文档，PDFBox还提供了一些高级功能，如表单处理、加密解密等。这些功能可以帮助我们在更复杂的场景下使用PDF文档。接下来，我们将详细介绍这些高级功能。

表单处理

PDF文档中经常包含交互式表单，用户可以在表单中填写信息。PDFBox提供了PDAcroForm类，用于处理PDF表单。下面是一个例子，展示如何填写一个现有的PDF表单。

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.interactive.form.PDAcroForm;
import org.apache.pdfbox.pdmodel.interactive.form.PDTextField;

import java.io.File;
import java.io.IOException;

public class FillPdfForm {
    public static void main(String[] args) {
        try {
            // 加载现有的PDF文件
            PDDocument document = PDDocument.load(new File("form.pdf"));

            // 获取表单
            PDAcroForm acroForm = document.getDocumentCatalog().getAcroForm();
            if (acroForm == null) {
                System.out.println("该PDF文档不包含表单。");
                return;
            }

            // 填写表单字段
            PDTextField nameField = (PDTextField) acroForm.getField("name");
            if (nameField != null) {
                nameField.setValue("John Doe");
            }

            PDTextField emailField = (PDTextField) acroForm.getField("email");
            if (emailField != null) {
                emailField.setValue("[email protected]");
            }

            // 保存填写后的表单
            document.save("filled-form.pdf");

            // 关闭文档
            document.close();

            System.out.println("表单已成功填写！");
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在这个例子中，我们首先加载了一个包含表单的PDF文件，然后使用PDAcroForm类获取表单对象。接下来，我们通过getField()方法获取表单中的字段，并使用setValue()方法为其赋值。最后，我们将填写后的表单保存到新的文件中。

加密和解密

PDF文档可以进行加密，以保护敏感信息。PDFBox提供了StandardProtectionPolicy类，用于对PDF文档进行加密。下面是一个例子，展示如何加密一个PDF文档。

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.encryption.StandardProtectionPolicy;

import java.io.File;
import java.io.IOException;

public class EncryptPdf {
    public static void main(String[] args) {
        try {
            // 加载现有的PDF文件
            PDDocument document = PDDocument.load(new File("example.pdf"));

            // 创建加密策略
            StandardProtectionPolicy policy = new StandardProtectionPolicy(
                "ownerPassword",  // 所有者密码
                "userPassword",   // 用户密码
                "PERMIT_ALL"      // 权限
            );

            // 应用加密策略
            document.protect(policy);

            // 保存加密后的文档
            document.save("encrypted-example.pdf");

            // 关闭文档
            document.close();

            System.out.println("PDF文档已成功加密！");
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在这个例子中，我们使用StandardProtectionPolicy类创建了一个加密策略，并指定了所有者密码、用户密码和权限。然后，我们使用protect()方法将加密策略应用到PDF文档中。最后，我们将加密后的文档保存到新的文件中。

解密PDF文档也非常简单。你只需要在加载PDF文件时提供正确的密码即可：

PDDocument document = PDDocument.load(new File("encrypted-example.pdf"), "userPassword");

其他高级功能

除了表单处理和加密解密，PDFBox还提供了许多其他高级功能，如水印、批注、书签等。这些功能可以帮助我们在PDF文档中添加更多的元数据和交互元素。由于篇幅有限，我们在这里不再一一展开，感兴趣的读者可以参考PDFBox的官方文档，了解更多详细信息。

总结

今天的讲座到这里就接近尾声了。我们从环境搭建开始，逐步介绍了如何使用Apache PDFBox生成和解析PDF文档，涵盖了从基础到高级的各个功能。希望这些内容能够帮助你在日常开发中更加轻松地处理PDF文档。

PDFBox作为一个强大的Java库，不仅提供了丰富的API，还拥有活跃的社区支持。无论你是初学者还是有经验的开发者，都可以通过PDFBox快速上手并解决实际问题。如果你在使用过程中遇到任何问题，不妨查阅官方文档或参与社区讨论，相信你会找到满意的答案。

感谢大家的聆听，希望今天的讲座对你有所帮助！如果有任何问题或建议，欢迎随时联系我。祝大家编码愉快！

介绍