在 Node.js 中实现输入验证和清理

欢迎来到 Node.js 输入验证与清理讲座

大家好！欢迎来到今天的讲座，今天我们要聊一聊在 Node.js 中如何实现输入验证和清理。如果你是第一次接触这个话题，别担心，我们会从基础开始，一步步带你了解如何确保你的应用程序安全、稳定地处理用户输入。

为什么需要输入验证和清理？

想象一下，你正在开发一个在线购物网站，用户可以在上面输入他们的个人信息、地址、信用卡号等敏感数据。如果这些输入没有经过验证和清理，可能会导致以下问题：

SQL 注入：恶意用户可以通过构造特殊的 SQL 查询来绕过数据库的安全机制，获取或篡改敏感数据。
XSS（跨站脚本攻击）：用户可以输入包含恶意 JavaScript 代码的文本，当其他用户查看这些内容时，代码会在他们的浏览器中执行，窃取会话信息或其他敏感数据。
命令注入：如果用户输入的内容被直接传递给系统命令（例如 exec 或 spawn），他们可能会执行任意命令，导致服务器被攻破。
数据格式错误：用户可能输入了不符合预期格式的数据，导致应用程序崩溃或行为异常。

因此，输入验证和清理不仅仅是“可选”的功能，而是确保应用程序安全性和可靠性的关键步骤。接下来，我们将详细介绍如何在 Node.js 中实现这些功能。

1. 输入验证的基本概念

什么是输入验证？

输入验证是指在接收用户输入后，检查这些输入是否符合预期的格式、类型和范围。通过验证，我们可以确保用户输入的数据是合法的，并且不会对系统造成威胁。

验证的常见场景

登录表单：验证用户名和密码是否为空，密码是否符合复杂度要求。
注册表单：验证电子邮件地址是否有效，手机号码是否符合特定国家的格式。
支付表单：验证信用卡号是否符合 Luhn 算法，有效期是否有效，CVV 是否为数字。
文件上传：验证文件类型、大小和扩展名是否符合要求。

验证的层次

输入验证通常分为两个层次：

客户端验证：在用户的浏览器中进行验证，通常是通过 HTML5 的内置验证属性或 JavaScript 实现。客户端验证可以提高用户体验，减少不必要的请求。
服务器端验证：即使客户端验证已经通过，服务器端仍然需要进行验证，因为客户端验证容易被绕过。服务器端验证是确保安全的最后一道防线。

客户端验证 vs 服务器端验证

客户端验证	服务器端验证
提高用户体验，减少不必要的请求	确保安全性，防止恶意用户绕过客户端验证
可以使用 HTML5 内置属性（如 `required`、`pattern`）	使用 Node.js 和第三方库进行更复杂的验证
可能被绕过，无法完全依赖	必须始终存在，作为最后一道防线

2. 使用 Express.js 进行输入验证

Express.js 是 Node.js 最流行的 Web 框架之一，它可以帮助我们快速构建 API 和 Web 应用程序。为了实现输入验证，我们可以结合 Express.js 和一些第三方库来简化这个过程。

2.1 使用 `express-validator` 进行验证

express-validator 是一个非常流行的验证库，它基于 validator.js 构建，提供了丰富的验证规则和链式调用方式。安装方法如下：

npm install express-validator

基本用法

假设我们有一个简单的用户注册表单，用户需要输入姓名、电子邮件和密码。我们可以使用 express-validator 来验证这些字段。

const express = require('express');
const { body, validationResult } = require('express-validator');

const app = express();
app.use(express.json());

app.post('/register', [
  // 验证姓名字段，不能为空
  body('name').notEmpty().withMessage('姓名不能为空'),

  // 验证电子邮件字段，必须是有效的电子邮件格式
  body('email').isEmail().withMessage('请输入有效的电子邮件地址'),

  // 验证密码字段，长度必须在 6 到 20 个字符之间
  body('password')
    .isLength({ min: 6, max: 20 })
    .withMessage('密码长度必须在 6 到 20 个字符之间')
    .matches(/^(?=.*[a-z])(?=.*[A-Z])(?=.*d)[a-zA-Zd]{6,}$/)
    .withMessage('密码必须包含大写字母、小写字母和数字'),
], (req, res) => {
  // 检查是否有验证错误
  const errors = validationResult(req);
  if (!errors.isEmpty()) {
    return res.status(400).json({ errors: errors.array() });
  }

  // 如果没有错误，继续处理注册逻辑
  res.json({ message: '注册成功' });
});

app.listen(3000, () => {
  console.log('服务器已启动，监听端口 3000');
});

解释

body('name')：表示我们要验证 req.body.name 字段。
notEmpty()：确保该字段不为空。
withMessage()：为验证失败提供自定义的错误消息。
isEmail()：确保电子邮件格式正确。
isLength()：限制字符串的长度。
matches()：使用正则表达式进行更复杂的验证。

处理验证错误

validationResult(req) 会返回一个包含所有验证错误的对象。如果没有错误，errors.isEmpty() 会返回 true，否则返回 false。我们可以根据这个结果来决定是否继续处理请求。

2.2 自定义验证规则

有时候，内置的验证规则可能无法满足我们的需求。express-validator 允许我们定义自定义验证函数。例如，我们想要验证用户输入的年龄是否大于 18 岁：

body('age')
  .custom((value) => {
    if (isNaN(value) || value < 18) {
      throw new Error('您必须年满 18 岁才能注册');
    }
    return true;
  });

custom() 方法允许我们编写任意的 JavaScript 逻辑来进行验证。如果验证失败，抛出一个带有错误消息的 Error 对象即可。

2.3 异步验证

某些验证逻辑可能需要异步操作，例如检查用户是否已经存在。express-validator 支持异步验证，我们只需要在 custom() 方法中返回一个 Promise 即可。

body('email')
  .custom(async (value, { req }) => {
    const user = await User.findOne({ email: value });
    if (user) {
      return Promise.reject('该电子邮件已被注册');
    }
    return true;
  });

在这个例子中，我们使用了 Mongoose 的 findOne() 方法来查询数据库，检查是否存在与输入电子邮件匹配的用户。如果存在，返回一个拒绝的 Promise 并附带错误消息。

3. 输入清理

除了验证用户输入外，清理输入也是非常重要的。清理的目的是去除或转换用户输入中的潜在危险字符，防止它们在后续处理中引发安全问题。

3.1 使用 `sanitize` 方法

express-validator 提供了 sanitize 方法，用于清理用户输入。常见的清理操作包括去除多余的空格、转义 HTML 标签、限制输入长度等。

去除多余空格

body('name').trim();

trim() 方法会去除字符串开头和结尾的空格，确保用户输入的姓名不会包含不必要的空白字符。

转义 HTML 标签

body('bio').escape();

escape() 方法会将 HTML 特殊字符（如 <、>、& 等）转换为对应的实体字符，防止用户输入的文本中包含恶意的 HTML 或 JavaScript 代码。

限制输入长度

body('bio').trim().isLength({ max: 255 }).escape();

我们可以结合多个清理和验证方法，确保用户输入的文本既符合格式要求，又不会包含潜在的危险字符。

3.2 自定义清理函数

express-validator 也支持自定义清理函数。例如，我们想要将用户输入的电话号码格式化为统一的格式：

body('phone')
  .customSanitizer((value) => {
    return value.replace(/D/g, ''); // 移除所有非数字字符
  });

customSanitizer() 方法允许我们编写任意的 JavaScript 逻辑来进行清理。在这个例子中，我们使用了正则表达式来移除电话号码中的所有非数字字符，确保最终保存到数据库中的电话号码只包含数字。

3.3 文件上传清理

文件上传是一个常见的功能，但也容易成为安全漏洞的来源。我们需要确保用户上传的文件符合预期的类型和大小限制。

验证文件类型

body('file')
  .custom((value, { req }) => {
    const file = req.file;
    if (!file) {
      throw new Error('请上传文件');
    }
    if (!['image/jpeg', 'image/png'].includes(file.mimetype)) {
      throw new Error('仅支持 JPEG 和 PNG 格式的图片');
    }
    return true;
  });

验证文件大小

body('file')
  .custom((value, { req }) => {
    const file = req.file;
    if (file.size > 1024 * 1024) { // 1MB
      throw new Error('文件大小不能超过 1MB');
    }
    return true;
  });

通过这些清理和验证规则，我们可以确保用户上传的文件是安全的，并且符合我们的业务需求。

4. 高级输入验证技巧

4.1 验证数组

有时我们需要验证用户输入的数组，例如用户选择的兴趣爱好列表。express-validator 提供了 array() 方法来处理这种情况。

body('hobbies.*')
  .isArray()
  .withMessage('兴趣爱好必须是一个数组')
  .optional({ checkFalsy: true })
  .each([
    body().isIn(['reading', 'gaming', 'traveling']).withMessage('无效的兴趣爱好')
  ]);

在这个例子中，我们首先验证 hobbies 是否是一个数组，然后使用 each() 方法对数组中的每个元素进行验证，确保它们都在预定义的有效值范围内。

4.2 验证嵌套对象

对于复杂的表单，用户输入可能是嵌套的对象。express-validator 支持通过点符号来访问嵌套字段。

body('address.street').notEmpty().withMessage('街道不能为空');
body('address.city').notEmpty().withMessage('城市不能为空');
body('address.zipCode')
  .isPostalCode('US')
  .withMessage('请输入有效的美国邮政编码');

在这个例子中，我们验证了 address 对象中的 street、city 和 zipCode 字段。isPostalCode() 方法用于验证邮政编码是否符合特定国家的格式。

4.3 条件验证

有时我们需要根据其他字段的值来动态决定是否验证某个字段。express-validator 提供了 conditional-validation 功能来实现这一点。

body('password')
  .if(body('passwordConfirmation').exists())
  .isLength({ min: 6 })
  .withMessage('密码长度必须至少为 6 个字符');

在这个例子中，只有当 passwordConfirmation 字段存在时，才会验证 password 字段的长度。这在用户修改密码时非常有用，因为我们不需要每次都验证旧密码。

5. 集成第三方验证服务

虽然 express-validator 已经提供了非常强大的验证功能，但在某些情况下，我们可能需要集成第三方验证服务来增强安全性。例如，我们可以使用 Google reCAPTCHA 来防止机器人提交表单，或者使用第三方邮件验证服务来确保用户输入的电子邮件地址是真实的。

5.1 使用 reCAPTCHA

reCAPTCHA 是一种广泛使用的验证码服务，可以帮助我们区分人类用户和机器人。以下是集成 reCAPTCHA 的基本步骤：

注册 reCAPTCHA：前往 Google reCAPTCHA 注册并获取站点密钥和秘密密钥。
前端集成：在表单页面中添加 reCAPTCHA 小部件。

<script src="https://www.google.com/recaptcha/api.js" async defer></script>
<div class="g-recaptcha" data-sitekey="YOUR_SITE_KEY"></div>

后端验证：在服务器端验证 reCAPTCHA 响应。

const axios = require('axios');

app.post('/submit', async (req, res) => {
  const { 'g-recaptcha-response': token } = req.body;

  try {
    const response = await axios.post('https://www.google.com/recaptcha/api/siteverify', null, {
      params: {
        secret: 'YOUR_SECRET_KEY',
        response: token,
      },
    });

    if (!response.data.success) {
      return res.status(400).json({ error: 'reCAPTCHA 验证失败' });
    }

    // 继续处理表单提交
    res.json({ message: '提交成功' });
  } catch (error) {
    res.status(500).json({ error: '服务器错误' });
  }
});

通过集成 reCAPTCHA，我们可以有效防止机器人提交表单，提升应用程序的安全性。

5.2 使用第三方邮件验证服务

有些第三方服务（如 Mailgun 或 Hunter）可以帮助我们验证用户输入的电子邮件地址是否真实存在。这些服务通常提供 API 接口，我们可以轻松集成到 Node.js 应用程序中。

const axios = require('axios');

app.post('/register', async (req, res) => {
  const { email } = req.body;

  try {
    const response = await axios.get('https://api.hunter.io/v2/email-verifier', {
      params: {
        email,
        api_key: 'YOUR_HUNTER_API_KEY',
      },
    });

    const result = response.data.data;

    if (result.result === 'undeliverable') {
      return res.status(400).json({ error: '无效的电子邮件地址' });
    }

    // 继续处理注册逻辑
    res.json({ message: '注册成功' });
  } catch (error) {
    res.status(500).json({ error: '服务器错误' });
  }
});

通过集成第三方邮件验证服务，我们可以确保用户输入的电子邮件地址是有效的，从而提高用户注册的成功率。

6. 总结与展望

今天我们学习了如何在 Node.js 中实现输入验证和清理。通过使用 express-validator，我们可以轻松地为表单字段添加各种验证规则，确保用户输入的数据符合预期。同时，我们还介绍了如何清理用户输入，防止潜在的安全风险。最后，我们探讨了一些高级技巧和第三方服务的集成方法，帮助我们进一步提升应用程序的安全性和可靠性。

输入验证和清理是构建安全、可靠的 Web 应用程序的基础。无论你是新手还是有经验的开发者，都应该时刻保持警惕，确保每一个用户输入都经过严格的验证和清理。希望今天的讲座对你有所帮助，期待你在未来的项目中应用这些知识，打造出更加安全的应用程序！

如果你有任何问题或建议，欢迎随时提问。祝你编程愉快，再见！?

附录：常用验证规则参考

方法	描述	示例
`isEmail()`	验证是否为有效的电子邮件地址	`body('email').isEmail()`
`isURL()`	验证是否为有效的 URL	`body('website').isURL()`
`isNumeric()`	验证是否为数字	`body('price').isNumeric()`
`isInt()`	验证是否为整数	`body('quantity').isInt()`
`isFloat()`	验证是否为浮点数	`body('discount').isFloat()`
`isAlpha()`	验证是否为字母	`body('name').isAlpha()`
`isAlphanumeric()`	验证是否为字母和数字	`body('username').isAlphanumeric()`
`isLowercase()`	验证是否为小写字母	`body('code').isLowercase()`
`isUppercase()`	验证是否为大写字母	`body('code').isUppercase()`
`isLength()`	验证字符串长度	`body('password').isLength({ min: 6, max: 20 })`
`matches()`	使用正则表达式进行验证	`body('password').matches(/^[a-zA-Z0-9]+$/)`
`isDate()`	验证是否为有效的日期	`body('dob').isDate()`
`isISO8601()`	验证是否为 ISO 8601 格式的日期	`body('created_at').isISO8601()`
`isUUID()`	验证是否为有效的 UUID	`body('id').isUUID()`
`isMobilePhone()`	验证是否为有效的手机号码	`body('phone').isMobilePhone('zh-CN')`
`isPostalCode()`	验证是否为有效的邮政编码	`body('zipCode').isPostalCode('US')`
`isCreditCard()`	验证是否为有效的信用卡号	`body('cardNumber').isCreditCard()`
`isIP()`	验证是否为有效的 IP 地址	`body('ip').isIP()`
`isBoolean()`	验证是否为布尔值	`body('active').isBoolean()`
`isJSON()`	验证是否为有效的 JSON 字符串	`body('data').isJSON()`
`isBase64()`	验证是否为有效的 Base64 编码	`body('image').isBase64()`

感谢大家的聆听，希望今天的讲座对你有所帮助！如果有任何问题，欢迎随时提问。祝你编程愉快，再见！?