谷歌在Gemini 3.5 Flash中集成操作计算机功能 但该功能主要面向开发者提供
2026-6-25 03:30:0 Author: www.landian.news(查看原文) 阅读量:9 收藏

#人工智能 谷歌在 Gemini 3.5 Flash 中集成操作计算机功能,但该功能并非面向普通用户,而是面向开发者的。开发者可以将该功能集成到自己的应用程序中,然后操作浏览器、移动设备或桌面环境,用来执行自动化测试、填写重复表单、在企业工作流中使用等。查看全文:https://ourl.co/113652

谷歌在最新发布的博客中宣布将「使用计算机」作为内置工具添加到 Google Gemini 3.5 Flash 模型中,该模型能够分析任务并跨浏览器、移动设备和桌面环境操作图形界面,这与 Codex 等提供的操作计算机有些类似,不过谷歌提供的这项功能主要面向开发者。

谷歌在Gemini 3.5 Flash中集成操作计算机功能 但该功能主要面向开发者提供

可以移动鼠标 / 滚动 / 截图等:

使用计算机功能可以让人工智能检查屏幕截图并返回诸如鼠标点击、滚动和键盘输入等操作,但这并不是面向普通用户提供的功能,而是面向开发者提供的,开发者构建的应用程序可以执行计算机操作并捕获生成的屏幕截图再发送给 Gemini,从而形成循环直到任务完成。

谷歌给出的实例是,开发者可以将使用计算机集成到重复填写表单、应用程序自动化测试、跨多个网站进行研究以及较长的企业工作流等任务中,Gemini 3.5 Flash 可以与浏览器、移动设备和桌面环境兼容,早期支持类似功能的 Gemini 2.5 主要针对浏览器交互,现在 Gemini 3.5 Flash 对该功能进行升级。

需要关注安全问题:

让人工智能自主操作计算机显然会带来潜在的安全风险,为降低在实际环境中执行任务带来的风险,谷歌在 Gemini 3.5 Flash 中使用针对计算机的定向对抗训练,检测到潜在的安全问题时会自动停止操作,而高风险操作则会要求用户明确授权后再使用。

谷歌还为企业客户提供可选的安全防护系统,包括:对于敏感或不可逆操作需要用户明确授权、如果检测到间接的提示词注入则自动停止任务不再执行。谷歌鼓励开发者将这些功能与安全沙箱、人机交互验证和严格的访问控制结合起来提高安全性。

仅限 Gemini API 调用操作计算机:

如上文所说 Gemini 3.5 Flash 的使用计算机功能本身不是面向普通用户的,开发者可以通过 Gemini API 平台使用此功能,企业客户则可以通过 Gemini API 或 Gemini 企业智能体平台调用,具体计费政策请访问对应平台的说明。

即将结束终于补货!99元/年境外CN2服务器又可以购买,限量销售,售完即止。另有3年超低价国内VPS服务器。

版权声明:
感谢您的阅读,本文由 @山外的鸭子哥 转载或编译,如您需要继续转载此内容请务必以超链接(而非纯文本链接)标注原始来源。原始内容来源:Google

  • 人类止步!腾讯推出仅供AI智能体使用的邮箱 可以让AI智能体发邮件/收邮件

  • 谷歌公布安卓侧载安装验证的时间表 9月底开始四国用户侧载APK将受限制

  • A社员工称并非所有开发者都需要Claude身份验证 仅部分被检测到异常才需要认证

  • 谷歌reCAPTCHA验证机制新增手势验证 需要用户拍摄手部视频进行真人验证

  • [附解决方案] Codex桌面版/CLI版可能会频繁写入日志影响SSD寿命 每天写入1.76TB

  • 狗听了都摇头:欧洲云计算大厂Hetzner宣布服务器涨价 最高涨幅173%(月)


文章来源: https://www.landian.news/archives/113652.html
如有侵权请联系:admin#unsafe.sh