面向开发者和企业的 Gemini 时代
Gemini 的产品和模型生态系统可以帮助开发者和企业充分利用 Google AI,从使用 Gemini 模型进行构建到将 Gemini 用作 AI 助理,不一而足。
试用 Gemini 2.5 模型 —— 我们迄今推出的最智能 AI 模型。Gemini 2.5 系列模型现为思考型
AI,具备先推理再响应的能力,性能表现大幅提升。
Gemini 主要功能
使用 Gemini 模型构建内容:
Google AI Studio
进行实验、设计原型并部署。对于想要试用 Gemini 模型并开始使用 Gemini Developer API
构建应用的开发者、学生和研究人员而言,Google AI Studio 是快捷途径。
Vertex AI
构建 AI 智能体并将生成式 AI 集成到您的应用中。Google Cloud 提供 Vertex
AI,这是一个全托管式统一开发平台,可供大规模使用 Gemini 模型和其他第三方模型。
在业务中使用 Gemini:
Gemini Enterprise
为每位员工带来 Google AI 的最佳体验。Gemini Enterprise 使团队能够在一个安全平台上发现、创建、共享和运行 AI 智能体。
内置 Gemini 的 Google Workspace
AI 赋能的助理直接内置于 Gmail 以及 Google 文档、幻灯片、表格等产品中,可助您提高工作效率和创造力。
Gemini 模型系列
我们的多功能模型高效运行于各种环境,从数据中心到端侧设备。
实验性版本
1.0 Ultra
我们最大的模型,适用于高度复杂的任务。
实验性版本
2.0 Pro
我们目前最出色的模型,在编码性能和复杂指令方面表现优异。
正式发布
2.0 Flash
我们强大的主力模型,具有低延迟和增强的性能,专为驱动智能体的体验而构建。
实验性版本
2.0 Flash Thinking
我们增强的推理模型,能够展示其思考过程,以提高性能和可解释性。
公开预览版
2.0 Flash-Lite
我们目前最具成本效益的模型。
正式发布
1.0 Nano
我们针对端侧设备任务最优化效率的模型。
预览版
2.5 Flash
最适合快速执行复杂任务
预览版本
2.5 Flash-Lite
高容量、高性价比任务的最佳选择
预览版本
2.5 Flash lmage
最适合图像生成和编辑
预览版本
3 Pro
最适合处理复杂任务和帮助用户实现任何创意
性能表现
Gemini 3 在广泛的基准测试中处于业界领先地位
我们迄今为止最智能的模型,为 AI 模型性能树立了新的标杆
| 基准测试 |
|
Gemini 3 Pro
|
Gemini 2.5 Pro
|
Claude Sonnet 4.5
|
GPT-5.1
|
学术推理
Humanity's Last Exam
|
No tools |
37.5% |
21.6% |
13.7% |
26.5% |
| 支持联网搜索和代码运行 |
45.8% |
— |
— |
— |
视觉推理谜题
ARC-AGI-2
|
ARC Prize 认证 |
31.1% |
4.9% |
13.6% |
17.6% |
科学认知
GPQA Diamond
|
No tools
|
91.9% |
86.4%
|
83.4%
|
88.1%
|
数学
AIME 2025
|
No tools
|
95.0%
|
88.0% |
87.0%
|
94.0%
|
| 支持代码运行 |
100.0%
|
—
|
100.0%
|
—
|
数学竞赛难题
MathArena Apex
|
|
23.4%
|
0.5%
|
1.6%
|
1.0%
|
多模态理解与推理
MMMU-Pro
|
|
81.0%
|
68.0%
|
68.0%
|
76.0%
|
界面理解
ScreenSpot-Pro
|
|
72.7%
|
11.4%
|
36.2%
|
3.5%
|
复杂图表信息综合
CharXiv Reasoning
|
|
81.4%
|
69.6%
|
68.5%
|
69.5%
|
OCR
OmniDocBench 1.5
|
总体编辑距离,越低越好 |
0.115
|
0.145
|
0.145 |
0.147 |
视频知识获取
Video-MMMU
|
|
87.6%
|
83.6%
|
77.8%
|
80.4%
|
编程竞赛题
LiveCodeBench Pro
|
Elo 等级分,越高越好 |
2,439
|
1,775
|
1,418
|
2,243
|
智能体终端编程
Terminal-Bench 2.0
|
Terminus-2 智能体
|
54.2%
|
32.6%
|
42.8%
|
47.6%
|
智能体编程
SWE-Bench Verified
|
单次尝试
|
76.2%
|
59.6%
|
77.2%
|
76.3%
|
智能体工具使用
τ2-bench
|
|
85.4%
|
54.9%
|
84.7%
|
80.2%
|
长周期智能体任务
Vending-Bench 2
|
净资产(平均值),越高越好
|
$5,478.16
|
$573.64
|
$3,838.74
|
$1,473.43
|
用于独立测试的内部知识校准、参数化、多模态和搜索检索基准
FACTS Benchmark Suite
|
|
70.5%
|
63.4%
|
50.4%
|
50.8%
|
参数化知识
SimpleQA Verified
|
|
72.1%
|
54.5%
|
29.3%
|
34.9%
|
多语言问答
MMMLU
|
|
91.8%
|
89.5%
|
89.1%
|
91.0%
|
跨越 100 种语言和文化的常识推理
Global PIQA
|
|
93.4%
|
91.5%
|
90.1%
|
90.9%
|
长上下文性能
MRCR v2 (8-needle)
|
128k (平均值)
|
77.0%
|
58.0%
|
47.1%
|
61.6%
|
| 1M (逐点)
|
26.3%
|
16.4%
|
not supported
|
not supported
|
客户和案例研究
Moloco:将 ML 驱动的零售媒体广告技术快速扩展至全球
Best Buy、Google Cloud 和Accenture 携手合作,利用生成式AI打造更好的客户服务体验
涂鸦:在云上构建开放的生态系统,提供全面的 loT 解决方案
创维:提供易于部署、运行顺畅的 OTT 解决方案,提升观看及运营体验
Moloco:将 ML 驱动的零售媒体广告技术快速扩展至全球
Best Buy、Google Cloud 和Accenture 携手合作,利用生成式AI打造更好的客户服务体验
涂鸦:在云上构建开放的生态系统,提供全面的 loT 解决方案
创维:提供易于部署、运行顺畅的 OTT 解决方案,提升观看及运营体验