从 Chatbot 向 Agentic AI(智能体)演进的过程中,推理能力的瓶颈(Reasoning Ceiling)和多模态链路的碎片化是阻碍工程落地的两大难题。本文深度解析昆仑天工旗下天工 Skywork 如何通过 Google 的 Gemini 3 模型家族,并结合 Google Distributed Cloud (GDC) 混合云架构,成功构建面向 Windows 生态的桌面级 Agent,在 GAIA 基准测试中实现全球第一,更助力 Skywork 在海外用户复杂研报生成场景中将端到端延迟降低 63%。

面对多步推理死循环、多模态处理链路割裂以及企业级数据主权三大技术挑战,更好解决海外用户的各种复杂需求,Skywork 技术团队选择与 Google Cloud 深度合作,通过引入 Gemini 3 模型与机密计算技术,完成了底层架构的全面重构。

突破推理天花板:基于 Gemini 3 Deep Think 的多路径决策

推理死循环与浅层输出:在早期的海外业务实践中,当 Agent 面对高复杂度的专业任务(如“阅读 100 页金融财报并生成符合品牌规范的 PPT”)时,往往受限于模型的单链推理能力,容易陷入逻辑死循环或仅能生成浅层的摘要信息,无法满足“专家级”交付标准。

解决方案:Skywork 引入了 Google Gemini 3 及其 Deep Think 能力。不同于传统的 CoT(思维链),Gemini 3 允许 Agent 在推理阶段同时探索多条潜在的解决路径(Reasoning Paths),并对中间结果进行自我评估与修正。

  • 架构优化:从单一的“Prompt-Response”模式转变为“Plan-Execute-Reflect”的自主循环架构。

  • 性能实测:在全球通用的 GAIA (General AI Assistant) Benchmark 中,重构后的 Skywork Agent 以 82.42% 的准确率斩获全球榜首,证明了其在高难度、多步骤现实任务中的鲁棒性。

链路融合:1M+ 上下文重塑多模态工作流

碎片化模型的延迟累积:在处理包含图表、视频会议录音和文本的混合数据时,传统方案通常采用“流水线模式”。这种包含 5 个独立模型的碎片化管道导致了严重的上下文丢失和极高的端到端延迟,难以满足海外用户对极致流畅体验的需求。

解决方案:Skywork 利用 Gemini 原生的多模态理解能力和 1M+ Token 的超长上下文窗口,将原本割裂的流水线重构为单一的统一数据流

  • 技术实现:摒弃中间件转译,直接将原生视频流、音频流和文档数据注入 Gemini 模型上下文。

  • 效率提升:复杂深度研究报告的生成时间从 3 小时大幅缩减至 60 分钟以内,生产力效能提升 63%,实现了真正的“Near Real-time”交互体验。

混合云架构:Google Distributed Cloud 支撑的数据主权与机密计算

Skywork 的海外市场包括大量对数据隐私极为敏感的金融与法律行业客户。这些“云犹豫”(Cloud-Hesitant)型企业要求数据在处理过程中必须满足严格的数据驻留(Data Residency)规定。

解决方案:为了在利用全球云端算力的同时保障数据主权,Skywork 采用了混合云部署策略:

  • 边缘部署:通过 Google Distributed Cloud (GDC),将 Gemini 驱动的 Agent 部署在海外客户的本地环境或边缘节点。

  • 机密计算:启用 Google Cloud 的机密计算节点,确保数据在内存处理态(Data-in-use)全程加密,即使是云服务商也无法窥探。这一特性成为 Skywork 成功打开国际高端企业市场的“敲门砖”。

  • 市场反馈:这一架构成功消除了海外高合规行业的顾虑,在企业级试点项目中实现了 97% 的超高用户留存率。

生态协同:One Google 技术栈的集成优势

Skywork 的技术演进不仅仅是模型的替换,更是对“One Google”技术栈的深度集成。

  • Google Workspace API 集成:Agent 可直接通过安全 API 操作 Docs、Sheets 和 Slides,将非结构化的推理结果转化为结构化的办公文档。 

  • MSP 合作伙伴支持:在架构迁移过程中,Google Cloud 提供了关键的工程化支持,协助团队针对 Gemini 3 的长上下文特性进行了精细化的 Prompt Engineering 调优,确保了复杂任务的高并发稳定性。

结语

从 Claude 迁移至 Gemini 3,天工 Skywork 完成了从“对话式 AI”到“自主智能体(Autonomous Agent)”的技术跨越,并成功在出海赛道上建立了领先优势。这一实践证明,在构建面向全球的下一代桌面级 OS Agent 时,原生多模态能力、长上下文推理以及混合云安全架构缺一不可。Google Cloud 提供的全栈 AI 基础设施,正在成为天工 Skywork 规模化落地全球市场的核心引擎。

相关推荐

精选内容

关注【谷歌云服务】
微信公众号
微信咨询:
周一至周五 早上 9 点到晚上 6 点
联系我们