
大外援始终没有确定,传闻中的帕顿八字还没一撇,辽宁男篮将会迎来分水岭,做好这三场比赛全部输球的准备,跌出前8也不意外。上一场比赛,辽宁男篮启用了10人轮换,想要给年轻人施展空间,也给老将休息时间。可惜没有达到预期,威尔斯出场44分钟,韩德君36分钟,李晓旭33分钟,上一场最后决战,两名老将都是在咬牙坚持。
作家|Yoky邮箱|[email protected]开年OpenAI放出了第一个王炸:Operator,定睛一看,这不是早就上线的智谱智能体 AutoGLM 和 GLM-PC 么?
早在本年10月25日,智谱便上线了转移端和Web端插件体式的AutoGLM,它只需吸收浅易的翰墨/语音指示,它就可以模拟东谈主类操作手机和浏览器。11月29日,智谱上线了更大权限的,基于PC的自主Agent:GLM-PC,并于2025年1月23日,更新了1.1版块,并全面公测。
从效劳上看,OpenAI展示的一些Operator的欺诈场景,AutoGLM也统统能管制,以浏览器插件的体式增强了居品天真性的同期进一步裁减了门槛,更要紧的是,统统免费,立省200好意思元!
比如,AutoGLM或者自主的在YouTube里给Operator写上一句“生意互吹”,或者去X里给Operator点赞。
亦或是在OpenTable上预订好餐厅的多任务分步处理,AutoGLM王人或者作念到丝滑完成。
升级后的GLM-PC与基于Web端的Agent有着更大的权限以此拓宽能力领域,比如GLM-PC不仅或者预订餐厅,更能在系统中book日期领导,来保证准时赴约。
硅星东谈主全面测评了最新版块的GLM-PC,禁受总共这个词电脑的权限后,它不仅能发微信、整理文献,还可以通过手机辛勤遥控GLM-PC进行互助,以致还在这个一票难求的春运时辰,连接交操作帮我抢到了回家的火车票...
1
懂事的PC,仍是学会我方抢车票、买年货了
当GLM-PC或者限度电脑后,会发生什么?
GLM-PC分为两种模式:极速模式和深度念念考模式,其中极速模式并不维持附件上传和多轮对话,也便是端到端的text to action,通过手机辛勤遥控也仅维持极速模式;而深度念念考模式则会展现念念考链路和逻辑,输入和输出试验愈加丰富,可扩充的指示也愈加复杂。
在GLM-PC提供的案例中,有“群发助手”的斥地,对话框中是一段预设的prompt,本认为要测试的我,健忘了我方的微信中真的有一个名为「胶漆相投一家东谈主」的群。于是GLM-PC运行自动操作准备给每一位群友发上一段祝愿,哪怕被我进攻收敛,也仍是群发了10个东谈主。
一运行,咱们用它来扩充了一些相对浅易的任务,比如用它来查找对于OpenAI的最新新闻,阅读了联系著述后帮我浅易整理一下基本信息传回,同期基于智谱清言的话语领路能力,对新闻事件进行了分析。
接着难度冷静升级,我让GLM-PC在小红书上找到保举的北京粤菜馆,GLM-PC在小红书中搜索了对于北京粤菜馆的帖子进行分析,它果然还机灵地知谈阅读驳斥,在驳斥中找到几家保举相比多的餐厅,然后跳转到人人点评中查了评分,终末将4.5分以上的餐厅整理进名单,回传给我。
还真别说,最终筛选出来的几家粤菜馆,滋味真的可以也避雷了网红餐厅。
要过年了,AI能不成替我挑选点年货,加到淘宝的购物车里?
在这个过程中,展示了GLM的多层分析能力,毕竟年货不是某一种具体的商品,在我向它提议这个需求时,它先是念念考,送给父母年货包括五谷杂粮、保健品、家电,诚然不一定统统妥贴父母的情意,但对类别的判定相瞄准确。
紧接着它在淘宝平分类搜索了具体的商品,而不是奏凯搜索“年货”两个字,天然,过程中出现了一些bug,当它搜索谷子的时候,跳出来是二次元文化的吧唧,不够好意思丽的GLM-PC一时辰没能领路这并不是谋划商品,仍然将它加进了购物车。
GLM-PC还化身为了抢票神器,还没抢到回家车票的我,让GLM-PC帮我买最早一班的车票,它不仅查了几天的车票情况,还圆润的帮我点选了商务座,终结得手买到一张26日的一等座。
不外在咱们的测试中,也发现了触及到账号登录、扫码登录的页面,GLM-PC没目的自主操作,也不会停驻来,而是束缚地重叠该页面。
与Operator相同,GLM-PC也作念了明锐性测试,让用户在明锐时刻,比如阐述提交信息、阐述支付等页面接盘操作。
同期,在GLM-PC操作电脑页面时,会由GLM-PC主导鼠标,东谈主为烦嚣后仍然接续GLM的经过,只可按下暂停键或收尾键才能统统交予东谈主类禁受。
1
GLM-PC若何作念到的?
在本领阶梯上,GLM-PC与Operator罗致的是团结种本领决议:基于多模态大模子的视觉识别与空间进行交互。
据OpenAI先容,Operator基于最新研发的 Computer-Using Agent (CUA) 模子,通过不雅察屏幕并使用编造鼠标和键盘来完成任务,而无需依赖成心的API接口。
早在2023年12月,智谱便发布了CogAgent,是其第一个基于视觉话语模子(Visual Language Model, VLM)的开源 图形界面智能体 GUI Agent 模子。GLM-PC即是基于该模子的初代居品。据修复文档中先容,通过多模态感知兑现全 GUI 空间交互。这些 GUI Agent,访佛东谈主类,能以视觉体式感知界面元素与布局,模拟东谈主类进行点击、键盘输入等元操作,极大拓展了 Agent 在编造交互空间的欺诈领域。

在GLM-PC 1.1版块中,使用更强大的视觉话语模子GLM-4V-9B当作基座模子,用来提高模子的基座图像领路性能。

与Operator换取的是,基于LLM模子提议Prompt,同期输入的模态(图像感知)、输出的操作空间(点击、蜕变、键盘输入)的交互形式一致,同期念念考了Agent和东谈主类的使用权交代情况,对于明锐时刻的判断等等。
且在先容中,Operator令Sam Altman颇为自高的是它的自我进化和自我反念念能力,即Operator可通过不息操作和学习掌合手东谈主类的民俗,不息拓宽本身的能力领域。
GLM-PC也基于智谱自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」,其中包括了一种中枢本领 WebRL,对于大模子智能体任务计较、检会任务和数据稀缺、反映信号赞理和多任务计谋隔离等问题进行了有相识的抗击,加之自顺应学习计谋,或者在迭代过程中不息阅兵,持续舒适提高本身性能,并在扩充过程中取得更多生人段。
不同的是,当今Operator现阶段仅针对Web端,何况与ChatGPT绑定付费,而GLM-PC是零丁的App,可针对电脑进行操作(包括浏览器和电脑腹地),同期手机可辛勤遥控操作电脑,何况统统免费。
从Operator的日记上看,Operator一次仅能扩充单步的线性揣度,和要津扩充,而GLM-PC具备多层级计较揣度能力,并将CogAgent 多模态GUI Agent模子与 CodeGeex代码生成模子蚁辘集,可兑现复杂严谨的逻辑限度。
但GLM-PC也对于硬件端的算力储备有一定的收尾,仅维持M系列的Mac电脑以及Windows10以上的系统。咱们在M1芯片的MacBook Air上进行测试,总共这个词过程中并未出现卡顿情况。

总的来看,GLM-PC更妥贴国内的互联网环境,转移端和PC端联动也更妥贴普通的使用民俗。据硅星东谈主了解,GLM-PC也将把柄用户的反映持续迭代交互体验,确凿目田了打工东谈主的双手!

点个“爱心”,再走吧