promptfoo 免费

Name: promptfoo
Price: 免费 CNY
Availability: InStock
Author: Promptfoo, Inc.

开发公司 Promptfoo, Inc.

地区美国

官网 https://www.promptfoo.dev/

promptfoo 是开源 CLI 与库，用于对提示词、模型、RAG 和 Agent 应用做自动化评测、红队攻击、漏洞扫描与回归测试，适合把 AI 质量和安全检查前移到开发流程。

promptfoo 工具正文

promptfoo 的核心参数与统计

参数	当前公开信息	核验说明
产品定位	LLM/Agent/RAG 评测、红队与漏洞扫描框架	官网与文档均强调 AI security、evaluations、red teaming
发布形态	开源 CLI + Node 库 + Web/Enterprise 平台	npm 包提供 `promptfoo` 与 `pf` 命令入口
许可证	MIT License	GitHub API 显示仓库许可证为 MIT
最新 npm 版本	0.121.17，发布于 2026-06-16	核查日期：2026-06-21
GitHub 认可度	约 22.4k stars、约 2.0k forks	动态指标，核查日期：2026-06-21
官方声称规模	官网首页提到 300,000+ developers；收购公告提到 350k+ developers、130k monthly active	以官方页面为来源，数字会随时间变化
公司状态	2026-03-09 官方公告称已同意被 OpenAI 收购	公告同时说明开源项目继续维护

promptfoo 的核心价值不是替开发者“猜测哪个提示词更好”，而是把 LLM 应用的行为测试变成可配置、可复现、可进入 CI/CD 的工程流程。它覆盖质量评测与安全红队两个侧面：一边比较模型、提示词和 RAG 输出质量，另一边用自动化攻击和策略检查发现 prompt injection、jailbreak、数据泄露、越权工具调用等风险。

promptfoo 的用户与市场认可

GitHub 仓库描述明确覆盖 prompts、agents、RAGs、red teaming、pentesting、vulnerability scanning，并列出 GPT、Claude、Gemini、DeepSeek 等模型比较场景。
官网导航将产品拆成 Red Teaming、Guardrails、Model Security、MCP Proxy、Code Scanning、Evaluations，说明 promptfoo 已从单一 eval 工具扩展到 AI 应用安全平台。
官方首页称其受到 156 家 Fortune 500 企业信任；2026-03-09 收购公告称超过 25% 的 Fortune 500 团队依赖 promptfoo。此类商业规模数字来自官方声明，使用时应按最新官网为准。
官方文档提到 Promptfoo 可用作 CLI、库或 CI/CD 工具，并支持 OpenAI、Anthropic、Azure、Google、Hugging Face、Llama 与自定义 API provider，说明它更接近横向框架，而不是绑定单一模型厂商的测试台。

对工程团队来说，这类认可的实际含义是：promptfoo 已有足够多的真实部署经验，可以作为 AI 应用测试规范的起点。但企业仍需要结合自己的风险模型、数据边界、合规要求和模型供应商策略进行二次配置。

promptfoo 的成本优势

成本层	当前公开信息	价值与注意点
Community	官方定价页标为 Free Forever	适合个人和小团队在本地跑评测、红队与漏洞扫描
红队额度	Community 含 10k probes/month	动态攻击生成和评分可能消耗推理资源，大规模测试需评估额度
Enterprise	Custom pricing	面向连续监控、团队治理、SLA、云/本地部署等企业需求
模型调用成本	由所用模型和 provider 决定	promptfoo 本体免费不等于评测零成本，批量用例会带来 API 费用
人力成本	YAML/配置化降低重复评测维护成本	初期仍要定义测试集、指标、阈值和安全策略

promptfoo 的成本优势在于把一次性人工试错变成可重复运行的测试资产。每次提示词、模型、检索链路或工具调用逻辑变化后，同一套 eval 和 red team 配置可以快速回归，避免把安全与质量检查留到上线后人工补救。

promptfoo 的主要功能

LLM 评测矩阵：对多个 prompt、模型、输入样例和断言进行横向比较，生成可浏览的结果矩阵。
自动评分与指标：通过 expected outputs、assertions、metrics 和模型评分器，把主观输出质量转成可追踪指标。
RAG 与 Agent 测试：可连接自定义 API、工具调用链和检索系统，用实际应用入口作为测试对象。
红队与安全扫描：官方文档提供 red teaming 快速开始，用于扫描安全漏洞与合规风险。
漏洞类型覆盖：官网与文档覆盖 prompt injection、jailbreak、PII/data leakage、business rule violation、insecure tool use、toxic content 等风险类别。
CI/CD 与协作：支持命令行、Node library、GitHub Action 等开发集成方式，适合在 pull request 或发布管线中设置质量门禁。
本地与自托管：官方定价页说明 Community 可本地运行或自托管，适合对测试数据外发敏感的团队。

功能上最关键的区别是：promptfoo 不只看单轮回答是否“看起来不错”，而是强调在多输入、多模型、多攻击策略下建立可复现证据。

promptfoo 的模型与版本演进

阶段	时间	公开变化
项目早期	2023-04 起	GitHub 仓库创建，围绕 prompt 评测和 CLI 工作流迭代
公司化与平台化	2024	官方公告称 Promptfoo 创立于 2024，目标是让开发者系统化测试 AI 应用
安全与红队加强	2024-2026	从 eval 工具扩展到 red teaming、vulnerability scanning、guardrails、model security、MCP Proxy 等产品面
OpenAI 收购公告	2026-03-09	官方称已同意被 OpenAI 收购，并继续维护开源套件
npm 0.121.17	2026-06-16	最新 npm 包版本，继续提供 CLI/库能力

GitHub release 列表中同时存在主包和子包/Action 标签，因此正文采用 npm promptfoo 包作为版本事实来源；GitHub 则用于核验开源仓库、许可证、stars/forks 与项目描述。

promptfoo 的技术优势

机制：声明式配置把 prompts、providers、tests、assertions 拆开。
效果：测试集可复用、可审查、可进入版本控制。
适用场景：提示词、RAG、Agent 工具链频繁迭代的工程团队。
机制：支持 CLI、Node library 与 CI/CD。
效果：质量评测可以从个人调试扩展到团队门禁，减少“上线前才想起测一下”的风险。
适用场景：需要在 PR、灰度发布、模型切换时自动回归的团队。
机制：红队测试与动态攻击生成覆盖多类 AI 风险。
效果：能更早发现 prompt injection、jailbreak、数据泄露、越权工具使用等传统单元测试难以覆盖的问题。
适用场景：面向外部用户、连接工具/API、处理敏感数据的 AI 应用。
机制：支持多 provider 与自定义 provider。
效果：团队可以比较闭源、开源和自建模型，不被单一供应商的评测台锁定。
适用场景：同时使用 OpenAI、Anthropic、Google、Azure、Hugging Face、Llama 或私有模型的组织。
机制：本地运行与自托管选项。
效果：测试数据、prompt、业务样例不必默认上传第三方平台。
适用场景：金融、医疗、法务、企业内部知识库等高敏感场景。

如何使用 promptfoo

入口	适合对象	使用路径
官方文档	初学者、方案评估者	从 Intro、Install Promptfoo、Getting Started、Red teaming Quickstart 进入
npm CLI	开发者	使用 npm/npx 安装或运行 `promptfoo`/`pf` 命令
Node library	平台工程团队	将评测能力嵌入内部工具或自动化流程
GitHub Action/CI	工程团队	在 pull request、发布流程、模型切换时自动执行评测
Enterprise/App	安全与治理团队	使用团队协作、监控、报表、SLA 与部署能力

推荐落地路径是先选一个高价值但范围可控的 AI 应用，例如客服 Agent、RAG 问答或内容审核助手；然后收集真实问题、反例和安全风险作为测试集；再配置基础质量断言与红队插件；最后把通过率、风险等级和失败样例接入 PR 或发布流程。

promptfoo 的产品定价

版本	官方公开价格	公开能力
Community	Free Forever	全部 LLM evaluation features、全部 model providers and integrations、red teaming 10k probes/month、自定义集成、本地运行/自托管、漏洞扫描、社区支持
Enterprise	Custom	包含 Community 能力，并面向更大团队提供企业级协作、监控、部署、API、Webhooks、支持与 SLA 等能力

定价页还说明，probe 是红队测试期间对目标系统发出的一次请求；部分红队插件需要推理来动态生成测试与评分，因此免费社区版的 10k probes/month 对轻量试点很友好，但生产级持续红队需要单独估算测试规模、模型调用成本和企业版费用。

promptfoo 的应用场景

提示词与模型 A/B 测试：在同一输入集上比较不同 prompt、模型和温度参数，选择更稳的组合。
RAG 质量回归：验证检索内容更新、chunk 策略调整、reranker 更换后是否引入幻觉或遗漏。
Agent 工具调用安全：检查 Agent 是否会越权调用工具、泄露敏感参数、绕过业务规则。
AI 红队演练：用自动化攻击覆盖 prompt injection、jailbreak、PII 泄露和不当内容生成。
发布门禁：在 CI/CD 中把评测分数、失败样例和风险等级变成上线前的可审查证据。
合规与审计材料：为模型变更、提示词变更和安全测试留下可复现记录，支持内部审计。

它尤其适合“AI 应用已经进入真实业务流程，但团队还缺少系统化测试框架”的阶段。

promptfoo 的适用人群

AI 应用开发者：需要快速比较 prompt、模型、RAG 参数，并把结果固化成回归测试。
安全工程师和 AppSec 团队：需要把 LLM/Agent 安全风险纳入漏洞扫描、红队和修复流程。
平台工程团队：希望为多个业务线提供统一的 AI 测试、报告和 CI/CD 模板。
产品与运营团队：需要理解模型行为变化对用户体验、业务规则和内容安全的影响。
合规与治理团队：关注 AI 系统上线前的证据、风险等级、审计轨迹和持续监控。

不太适合的情况：只做一次性 demo、没有可重复测试样例、完全不允许接入任何模型 API 且无本地模型替代，或团队尚未形成 AI 应用的基本质量标准。

promptfoo 的总结与展望

promptfoo 是当前 LLM 工程里少数同时覆盖“质量评测”和“安全红队”的开源框架。它的最佳使用方式不是把它当成一次性扫描器，而是把它放进开发生命周期：需求阶段定义失败模式，开发阶段持续运行 eval，上线前执行 red team，发布后持续监控回归。

OpenAI 收购公告意味着 promptfoo 的安全评测经验可能进一步进入模型与基础设施层；同时官方也明确开源套件会继续服务多模型、多 provider 的真实开发方式。对企业来说，promptfoo 的短期价值是快速建立 AI 测试基线；长期价值是把模型行为、业务规则和安全风险转成可维护的工程资产。

参考来源

版本信息

promptfoo 0.121.17 ：npm 最新包版本，官方包描述为 LLM eval & testing toolkit，支持 promptfoo 与 pf 命令入口。（2026-06-16）
promptfoo 0.121.16 ：0.121.x 维护版本，延续 CLI、库、评测与红队能力。（2026-06-16）
promptfoo 0.121.15 ：0.121.x 维护版本，用于 LLM 应用评测、红队测试和自动化工作流。（2026-06-05）

用户评价

加载评价中...