promptfoo 免费

-

promptfoo 是开源 CLI 与库,用于对提示词、模型、RAG 和 Agent 应用做自动化评测、红队攻击、漏洞扫描与回归测试,适合把 AI 质量和安全检查前移到开发流程。

promptfoo 产品界面

promptfoo 工具正文

promptfoo 的核心参数与统计

参数 当前公开信息 核验说明
产品定位 LLM/Agent/RAG 评测、红队与漏洞扫描框架 官网与文档均强调 AI security、evaluations、red teaming
发布形态 开源 CLI + Node 库 + Web/Enterprise 平台 npm 包提供 promptfoopf 命令入口
许可证 MIT License GitHub API 显示仓库许可证为 MIT
最新 npm 版本 0.121.17,发布于 2026-06-16 核查日期:2026-06-21
GitHub 认可度 约 22.4k stars、约 2.0k forks 动态指标,核查日期:2026-06-21
官方声称规模 官网首页提到 300,000+ developers;收购公告提到 350k+ developers、130k monthly active 以官方页面为来源,数字会随时间变化
公司状态 2026-03-09 官方公告称已同意被 OpenAI 收购 公告同时说明开源项目继续维护

promptfoo 的核心价值不是替开发者“猜测哪个提示词更好”,而是把 LLM 应用的行为测试变成可配置、可复现、可进入 CI/CD 的工程流程。它覆盖质量评测与安全红队两个侧面:一边比较模型、提示词和 RAG 输出质量,另一边用自动化攻击和策略检查发现 prompt injection、jailbreak、数据泄露、越权工具调用等风险。

promptfoo 的用户与市场认可

  • GitHub 仓库描述明确覆盖 prompts、agents、RAGs、red teaming、pentesting、vulnerability scanning,并列出 GPT、Claude、Gemini、DeepSeek 等模型比较场景。
  • 官网导航将产品拆成 Red Teaming、Guardrails、Model Security、MCP Proxy、Code Scanning、Evaluations,说明 promptfoo 已从单一 eval 工具扩展到 AI 应用安全平台。
  • 官方首页称其受到 156 家 Fortune 500 企业信任;2026-03-09 收购公告称超过 25% 的 Fortune 500 团队依赖 promptfoo。此类商业规模数字来自官方声明,使用时应按最新官网为准。
  • 官方文档提到 Promptfoo 可用作 CLI、库或 CI/CD 工具,并支持 OpenAI、Anthropic、Azure、Google、Hugging Face、Llama 与自定义 API provider,说明它更接近横向框架,而不是绑定单一模型厂商的测试台。

对工程团队来说,这类认可的实际含义是:promptfoo 已有足够多的真实部署经验,可以作为 AI 应用测试规范的起点。但企业仍需要结合自己的风险模型、数据边界、合规要求和模型供应商策略进行二次配置。

promptfoo 的成本优势

成本层 当前公开信息 价值与注意点
Community 官方定价页标为 Free Forever 适合个人和小团队在本地跑评测、红队与漏洞扫描
红队额度 Community 含 10k probes/month 动态攻击生成和评分可能消耗推理资源,大规模测试需评估额度
Enterprise Custom pricing 面向连续监控、团队治理、SLA、云/本地部署等企业需求
模型调用成本 由所用模型和 provider 决定 promptfoo 本体免费不等于评测零成本,批量用例会带来 API 费用
人力成本 YAML/配置化降低重复评测维护成本 初期仍要定义测试集、指标、阈值和安全策略

promptfoo 的成本优势在于把一次性人工试错变成可重复运行的测试资产。每次提示词、模型、检索链路或工具调用逻辑变化后,同一套 eval 和 red team 配置可以快速回归,避免把安全与质量检查留到上线后人工补救。

promptfoo 的主要功能

  • LLM 评测矩阵:对多个 prompt、模型、输入样例和断言进行横向比较,生成可浏览的结果矩阵。
  • 自动评分与指标:通过 expected outputs、assertions、metrics 和模型评分器,把主观输出质量转成可追踪指标。
  • RAG 与 Agent 测试:可连接自定义 API、工具调用链和检索系统,用实际应用入口作为测试对象。
  • 红队与安全扫描:官方文档提供 red teaming 快速开始,用于扫描安全漏洞与合规风险。
  • 漏洞类型覆盖:官网与文档覆盖 prompt injection、jailbreak、PII/data leakage、business rule violation、insecure tool use、toxic content 等风险类别。
  • CI/CD 与协作:支持命令行、Node library、GitHub Action 等开发集成方式,适合在 pull request 或发布管线中设置质量门禁。
  • 本地与自托管:官方定价页说明 Community 可本地运行或自托管,适合对测试数据外发敏感的团队。

功能上最关键的区别是:promptfoo 不只看单轮回答是否“看起来不错”,而是强调在多输入、多模型、多攻击策略下建立可复现证据。

promptfoo 的模型与版本演进

阶段 时间 公开变化
项目早期 2023-04 起 GitHub 仓库创建,围绕 prompt 评测和 CLI 工作流迭代
公司化与平台化 2024 官方公告称 Promptfoo 创立于 2024,目标是让开发者系统化测试 AI 应用
安全与红队加强 2024-2026 从 eval 工具扩展到 red teaming、vulnerability scanning、guardrails、model security、MCP Proxy 等产品面
OpenAI 收购公告 2026-03-09 官方称已同意被 OpenAI 收购,并继续维护开源套件
npm 0.121.17 2026-06-16 最新 npm 包版本,继续提供 CLI/库能力

GitHub release 列表中同时存在主包和子包/Action 标签,因此正文采用 npm promptfoo 包作为版本事实来源;GitHub 则用于核验开源仓库、许可证、stars/forks 与项目描述。

promptfoo 的技术优势

  • 机制:声明式配置把 prompts、providers、tests、assertions 拆开。
    效果:测试集可复用、可审查、可进入版本控制。
    适用场景:提示词、RAG、Agent 工具链频繁迭代的工程团队。
  • 机制:支持 CLI、Node library 与 CI/CD。
    效果:质量评测可以从个人调试扩展到团队门禁,减少“上线前才想起测一下”的风险。
    适用场景:需要在 PR、灰度发布、模型切换时自动回归的团队。
  • 机制:红队测试与动态攻击生成覆盖多类 AI 风险。
    效果:能更早发现 prompt injection、jailbreak、数据泄露、越权工具使用等传统单元测试难以覆盖的问题。
    适用场景:面向外部用户、连接工具/API、处理敏感数据的 AI 应用。
  • 机制:支持多 provider 与自定义 provider。
    效果:团队可以比较闭源、开源和自建模型,不被单一供应商的评测台锁定。
    适用场景:同时使用 OpenAI、Anthropic、Google、Azure、Hugging Face、Llama 或私有模型的组织。
  • 机制:本地运行与自托管选项。
    效果:测试数据、prompt、业务样例不必默认上传第三方平台。
    适用场景:金融、医疗、法务、企业内部知识库等高敏感场景。

如何使用 promptfoo

入口 适合对象 使用路径
官方文档 初学者、方案评估者 从 Intro、Install Promptfoo、Getting Started、Red teaming Quickstart 进入
npm CLI 开发者 使用 npm/npx 安装或运行 promptfoo/pf 命令
Node library 平台工程团队 将评测能力嵌入内部工具或自动化流程
GitHub Action/CI 工程团队 在 pull request、发布流程、模型切换时自动执行评测
Enterprise/App 安全与治理团队 使用团队协作、监控、报表、SLA 与部署能力

推荐落地路径是先选一个高价值但范围可控的 AI 应用,例如客服 Agent、RAG 问答或内容审核助手;然后收集真实问题、反例和安全风险作为测试集;再配置基础质量断言与红队插件;最后把通过率、风险等级和失败样例接入 PR 或发布流程。

promptfoo 的产品定价

版本 官方公开价格 公开能力
Community Free Forever 全部 LLM evaluation features、全部 model providers and integrations、red teaming 10k probes/month、自定义集成、本地运行/自托管、漏洞扫描、社区支持
Enterprise Custom 包含 Community 能力,并面向更大团队提供企业级协作、监控、部署、API、Webhooks、支持与 SLA 等能力

定价页还说明,probe 是红队测试期间对目标系统发出的一次请求;部分红队插件需要推理来动态生成测试与评分,因此免费社区版的 10k probes/month 对轻量试点很友好,但生产级持续红队需要单独估算测试规模、模型调用成本和企业版费用。

promptfoo 的应用场景

  • 提示词与模型 A/B 测试:在同一输入集上比较不同 prompt、模型和温度参数,选择更稳的组合。
  • RAG 质量回归:验证检索内容更新、chunk 策略调整、reranker 更换后是否引入幻觉或遗漏。
  • Agent 工具调用安全:检查 Agent 是否会越权调用工具、泄露敏感参数、绕过业务规则。
  • AI 红队演练:用自动化攻击覆盖 prompt injection、jailbreak、PII 泄露和不当内容生成。
  • 发布门禁:在 CI/CD 中把评测分数、失败样例和风险等级变成上线前的可审查证据。
  • 合规与审计材料:为模型变更、提示词变更和安全测试留下可复现记录,支持内部审计。

它尤其适合“AI 应用已经进入真实业务流程,但团队还缺少系统化测试框架”的阶段。

promptfoo 的适用人群

  • AI 应用开发者:需要快速比较 prompt、模型、RAG 参数,并把结果固化成回归测试。
  • 安全工程师和 AppSec 团队:需要把 LLM/Agent 安全风险纳入漏洞扫描、红队和修复流程。
  • 平台工程团队:希望为多个业务线提供统一的 AI 测试、报告和 CI/CD 模板。
  • 产品与运营团队:需要理解模型行为变化对用户体验、业务规则和内容安全的影响。
  • 合规与治理团队:关注 AI 系统上线前的证据、风险等级、审计轨迹和持续监控。

不太适合的情况:只做一次性 demo、没有可重复测试样例、完全不允许接入任何模型 API 且无本地模型替代,或团队尚未形成 AI 应用的基本质量标准。

promptfoo 的总结与展望

promptfoo 是当前 LLM 工程里少数同时覆盖“质量评测”和“安全红队”的开源框架。它的最佳使用方式不是把它当成一次性扫描器,而是把它放进开发生命周期:需求阶段定义失败模式,开发阶段持续运行 eval,上线前执行 red team,发布后持续监控回归。

OpenAI 收购公告意味着 promptfoo 的安全评测经验可能进一步进入模型与基础设施层;同时官方也明确开源套件会继续服务多模型、多 provider 的真实开发方式。对企业来说,promptfoo 的短期价值是快速建立 AI 测试基线;长期价值是把模型行为、业务规则和安全风险转成可维护的工程资产。

参考来源

版本信息

  • promptfoo 0.121.17 :npm 最新包版本,官方包描述为 LLM eval & testing toolkit,支持 promptfoo 与 pf 命令入口。
  • promptfoo 0.121.16 :0.121.x 维护版本,延续 CLI、库、评测与红队能力。
  • promptfoo 0.121.15 :0.121.x 维护版本,用于 LLM 应用评测、红队测试和自动化工作流。

用户评价

  • 加载评价中...