41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码智能体和ai的区别

377 0 0

智谱昨夜甩出开源核弹 GLM-4.5V：42 项基准 41 个 SOTA，100B 参数直接登顶多模态榜。它能看图秒猜经纬度、在《清明上河图》里数马、把视频一键还原成代码，甚至和人类顶尖玩家在图寻游戏里 PK 到全球 66 名。API 低至 2 元/百万 token，官方再送 2000 万免费额度——玩 Demo 还是做生产力，现在就能上手。agent智能体

智谱基于GLM-4.5打造的开源多模态视觉推理模型GLM-4.5V，在42个公开榜单中41项夺得SOTA！其功能涵盖图像、视频、文档理解、Grounding、地图定位、空间关系推理、UI转Code等。al工具

这半年，多模态大模型已经成为各家的标配，但似乎功能都有点趋同，玩起来都有点腻了。人工智能ia

不过，今晚智谱最新开源的GLM-4.5V视觉推理模型，带来了非常多的惊喜！ai的可怕之处

两周前，智谱发布GLM-4.5，这个融合ARC（Agentic、Reasoning、Coding）能力的模型获得非常高的关注。kimi手机版

取得了全球模型第三、国产模型第一，开源模型第一的成绩！al解说大师下载

智谱这次乘胜追击！在GLM-4.5基座之上进一步训练出100B级别最强开源多模态模型，成功在多模态赛道上占据一席之地。ai智能体十大龙头

GLM-4.5V「看懂世界」的方式，是真的有点东西，而且在智谱最近新推出的z.ai的平台上，升级了很多视觉多模态的全新玩法。商汤科技

比如这次更新后，GLM-4.5V可以玩看图猜地址GeoGuessr游戏，而且准确率非常高。商汤科技

我们试了三次，每次的国家和大洲都非常准确，不过具体经纬度可能还需抽卡。viggle ai

下面是其中一次测试，GLM-4.5V可以找到画面中的关键元素，配合地理风格、建筑风格等来推理出正确结论。豆包打开

值得一提的是，智谱还派出GLM-4.5V参加了国内的图寻游戏挑战，和国内最顶尖的两万多名人类玩家真实对战。智能体和ai的区别

目前智谱已经在全球排名66，而其他都是人类选手。龙虾ai下载

智谱这次更新的另一个玩法就是Grounding能力，GLM-4.5V眼神太好，可以在清明上河图中找到三匹马（左上角角落），并在图中做出标识。千问是个什么软件

GLM-4.5V不仅眼神好，还能理解视频，而代码能力又沿袭了它的基座模型GLM-4.5，两者相加「涌现」出一种全新能力。a1官方免费下载

那就是，通过直接上传视频也能复刻网站！人工智能ia

[fancyad id=”45″]al解说大师下载

神奇之处在于，GLM-4.5V完全没有训练过「看视频」前端网页复刻，这个意外发现体现了GLM-4.5很强的泛化能力。豆包打开

我们录了一个Github的网站视频。商汤科技

GLM-4.5V竟然也可以复刻个七七八八。智能体和ai的区别

下图左边是原版，右边是复刻，大体框架没有问题，有个别按钮的位置，以及时间线组件被修改为列表等小问题。千问是个什么软件

在实测中，我们发现，不论是GeoGuessr看图挑战、空间关系理解、复杂图表推理、OCR识别、做题，甚至可以理解视频等各个方面，GLM-4.5V的表现都远超预期。即梦官网网页版

GLM-4.5V一手实测kimi手机版

GLM-4.5V基于智谱发布的新一代旗舰文本基座模型GLM-4.5-Air，沿用了GLM-4.1V-Thinking的结构。即梦官网网页版

其中，GLM-4.1V-Thinking 7月上线后就登上了HuggingFace Trending第一，模型已获得累计超过13万次下载。百度ai虚拟聊天

Github：即梦官网网页版

https://github.com/zai-org/GLM-Vkimi手机版

Hugging Face：viggle ai

https://huggingface.co/collections/zai-org/glm-45v-ai开源什么意思

68999032ddf8ecf7dcdbc102智能体和ai的区别

魔搭社区：即梦官网网页版

https://modelscope.cn/collections/GLM-45V-8b471c8f97154eal工具

GLM-4.1V-Thinking是一个小参数模型，而全新的GLM-4.5V拥有106B总参数，12B的激活参数。agent智能体

可以说，GLM-4.5V是100B参数这个「重量级」的SOTA标杆，现已经登录官网。智能体和ai的区别

GLM-4.5V实测了42个公开视觉多模态榜单，在其中41个榜单中，达到同级别开源模型的SOTA性能，涵盖图像、视频、文档理解以及GUI Agent等常见任务。人工智能ia

GLM-4.5V这次升级了很多玩法，实现全场景视觉推理覆盖，比如：ai无限制词,免费

图像推理（场景理解、复杂多图分析、位置识别）
视频理解（长视频分镜分析、事件识别）
GUI任务（屏幕读取、图标识别、桌面操作辅助）
复杂图表与长文档解析（研报分析、信息提取）
Grounding能力（精准定位视觉元素）

此次更新，模型新增「思考模式」开关，可以自行决定是否启用推理功能。商汤科技

体验网站：https://chat.z.ai/百度ai虚拟聊天

此外，继上次GLM-4.5「V50包月」活动，这次GLM-4.5V为企业与开发者提供高性价比的多模态AI解决方案：可灵ai国际版

API调用价格：低至输入2元/Mtokens，输出6元/Mtokens
响应速度：达到60-80tokens/s
API接口文档：http://docs.bigmodel.cn/api-reference

GLM-4.5V API现已上线智谱开放平台BigModel.cn，智谱为所有新老用户准备了2000万Tokens的免费资源包。ai开源什么意思

领取链接：豆包打开

https://zhipuaishengchan.datasink.sensorsdata.cn/t/bv可灵ai国际版

精准识别和定位目标物体al工具

GLM-4.5V能够从图片中理解并识别出具体的目标的物体。viggle ai

可以在界面上直接选择Grounding模式，传入图片和提示词即可。龙虾ai下载

比如上传了一张AI随机生成的图片，GLM-4.5V的推理能力可以从图片中准确识别出「非现实」的物体，就是红框中看着像昆虫的洒水机器人。a1官方免费下载

简单介绍下Grounding能力，在计算机视觉与多模态任务中，Grounding能力指的是模型将自然语言中的词语或短语，精确地与图像中的具体区域或对象建立对应关系的能力。智能体和ai的区别

它不仅要求模型能「看懂」图片，也能「读懂」文字，并在两者之间建立准确的语义—视觉映射。即梦官网网页版

较知名的Flickr30k Entities数据集可灵ai国际版

并且GLM-4.5V的Grounding的能力还附带了「推理魔法」。千问是个什么软件

比如下面这张《我，机器人》剧照中，有一个机器人明显看着比其他机器人更有灵魂。ai的可怕之处

GLM-4.5V一下子就找到了！这确实很令人惊讶，4.5V的视觉能力已经可以理解表情了。a1官方免费下载

而且你仔细看这个Grounding的Box，完全贴着右下角的机器人，即使是胳膊部分也几乎相切，确实有点东西。百度ai虚拟聊天

看图猜地址千问是个什么软件

除了可以在GeoGuessr中玩，GLM-4.5V这次还可以通过随机照片来推理地址。即梦官网网页版

比如上传一张照片，GLM-4.5V能通过建筑特征来识别照片是在哪里拍摄的。ai智能找客户

这个推理结果和GPT-5 Pro结果相同。豆包打开

甚至在描述判断逻辑方面，GLM-4.5V看起来更胜一筹，因为模型不仅注意到建筑风格，还从门牌号上识别到北欧古典建筑。千问是个什么软件

视频理解能力ai智能找客户

这次GLM-4.5V另一个重大更新就是视频理解。kimi手机版

类似这种超现实主义的视频，GLM-4.5V也能完全get到视频中的重点元素和隐喻含义。龙虾ai下载

它甚至识别出了特斯拉Cybertruck。龙虾ai下载

或者像这种偏重于抽象的视频，GLM-4.5V也能理解，并且可以给出非常深度的解释。al解说大师下载

宇宙、人类、精神、灵魂、科技、艺术，GLM-4.5V还是真的大超预期。龙虾ai下载

空间关系理解kimi手机版

视觉能力中，有一项很重要的空间理解能力，比如这个包含常见物体空间关系图。ai的可怕之处

我们随机给关系打上马赛克，然后让GLM-4.5V来定义物体的空间关系。人工智能ia

单箭头的情况下，多次测试GLM-4.5V每次都可以判断正确，正确率100%。ai智能体十大龙头

多个箭头的情况下，会有偶尔的识别出现失误，比如应该是Behind的情况会识别为旁边。可灵ai国际版

但整体模型在空间理解上，来的一个新的高度。千问是个什么软件

前端能力：UI到Code龙虾ai下载

这次GLM-4.5V更新的另一大看点是可以通过UI界面直接转化为Code。百度ai虚拟聊天

比如我们用GLM-4.5V的官网截图制作了一个「它自己」。千问是个什么软件

不得不说，GLM-4.5V编程能力确实很强，做出来的网站一模一样，甚至连左侧的Emoji都带上了，画面比例和UI风格也做到了1:1复刻。viggle ai

图像识别能力ai智能体十大龙头

有名的Magic Eye测试图片集，GLM-4.5V也能准确识别，比如下图这种多种鱼类拼凑的重复画面。可灵ai国际版

GLM-4.5V甚至可以定位到「橙色带条纹」，肉眼想看的话，还是需要放大并且仔细观察的。al工具

视觉模型的「数数」能力人工智能ia

再来一个世界模型经常遇到的「数数」问题，模型需要识别图片中的物体种类和数量。ai智能找客户

这些问题对于人类来说很简单，但是对于VLM就没那么容易了。人工智能ia

在这种「目标搜索」任务中VLM的表现，会随着场景里目标数量的增多而迅速下降。龙虾ai下载

GLM-4.5V准确的识别到松饼和羊，并且完成了左上、左下和右上的数量识别。agent智能体

右下人类也很难数得清，但GLM-4.5V表示他数了个大概，非常拟人了，这里的处理几乎可以说得上完美。智能体和ai的区别

以上实测并不是测试的全部，但是GLM-4.5V除了能力很强外，最大的特点是又快又好玩，基本上很多任务都是秒出。智能体和ai的区别

而且更有意思的是，每个任务都会自动匹配一个题目+一个Emoji，这代表模型真正的理解了任务的核心。豆包打开

很多Emoji配的都无比形象，这在其他很多产品中都没有这个功能。龙虾ai下载

技术创新豆包打开

开头我们介绍了GLM-4.5V基于智谱新发布的新一代旗舰文本基座模型GLM-4.5-Air，沿用GLM-4.1V-Thinking的结构。kimi手机版

GLM-4.5V模型原理ai智能找客户

GLM-4.5V由视觉编码器、MLP 适配器和语言解码器三部分组成，支持64K多模态长上下文。ai开源什么意思

视觉编码器采用AIMv2-Huge，支持图像与视频输入，并通过三维卷积提升视频处理效率。ai的可怕之处

模型引入三维旋转位置编码（3D-RoPE）和双三次插值机制，增强了对高分辨率和极端宽高比图像的适应性。百度ai虚拟聊天

同时，语言解码器中的位置编码扩展为3D 形式（3D-RoPE），进一步提升了多模态空间理解能力。a1官方免费下载

GLM-4.5V训练策略可灵ai国际版

GLM-4.5V 采用三阶段策略：预训练、监督微调（SFT）和强化学习（RL）。ai智能找客户

在预训练阶段，结合大规模图文交错多模态语料和长上下文内容，强化了模型对复杂图文及视频的处理能力
在SFT阶段，引入了显式「思维链」格式训练样本，增强了GLM-4.5V的因果推理与多模态理解能力；
在RL阶段，引入全领域多模态课程强化学习，通过构建多领域奖励系统（RewardSystem），结合可验证奖励强化学习（RLVR）与基于人类反馈的强化学习（RLHF），GLM-4.5V在STEM问题、多模态定位、Agent任务等方面获得全面优化。