实测完主流大模型编程与Agent能力，我发现了。。。豆包打开

468 0 0

今天，苍何将通过一系列实测案例，带你深入了解这些主流大模型在实际应用中的表现。从可视化欧拉恒等式到设计带有动画效果的天气卡片，从创建《木兰辞》的动态页面到电商产品详情页管理工具的开发，这些测试将全方位展示各模型的能力。你将看到它们在代码质量、UI设计、多模态分析等方面的优劣。ai的可怕之处

不瞒你说，这是一篇拖了一个多月的文章。可灵ai国际版

那个时候，大模型纷纷狂发，GPT5、Claude4、Gemini2.5 Pro、Kimi K2，doubao 1.6 、Qwen 3、GLM 4.5 等陆续出来。ai智能找客户

除此之外，vibe coding 工具也是一路狂飙，先不说 Cursor、Trae 吧，后来追上的 Claude Code 火了后，AI CLI 工具也疯狂连发。商汤科技

腾讯、字节、阿里等大厂疯狂更新自家大模型和 AI 编程工具。agent智能体

但对很多人来说，真的有点学不过来了，这其中就包括我。viggle ai

特别是涉及 code 能力、 Agent 能力、多模态能力，到底哪个大模型好，目前我们的差距在哪儿？优势在哪儿？al解说大师下载

于是大概一个多月前，我就整理测了主流模型的能力表现。（截图部分）a1官方免费下载

从这些测评 case，对大模型的拷打，多少能得到一些我们想要的答案。ai无限制词,免费

但一直没有好好发出来，是因为这一个多月来，太多要详测的东西了。千问是个什么软件

今天终于有时间能发出来了，但由于文章篇幅限制问题，这一篇就先对比下 doubao 1.6、 Kimi K2、Claude Sonnet 4、Gemini 2.5 Pro、Qwen 3。ai开源什么意思

保命申明：部分 case 及灵感灵感来源网络，如有侵权，请联系作者。其中豆包大模型 1.6 是基于火山方舟测试。ai开源什么意思

可视化欧拉恒等式豆包打开

首先，我给各模型出了个不算太难但很能体现功底的题目：可视化欧拉恒等式创建一个交互式工具来可视化欧拉恒等式ai无限制词,免费

这是 Kimi K2 效果：ai的可怕之处

这是豆包 APP 效果：龙虾ai下载

Gemini 2.5 Pro 效果如下：百度ai虚拟聊天

Claude Sonnet 4 出来的效果：ai智能找客户

试了 Qwen 3-Coder，是这个效果：al工具

结论：整体效果大差不差，豆包大模型1.6等国内模型和 Claude 展现出的效果接近，但前端美观度上，Claude 在这个 case 里面保持了些许领先吧。智能体和ai的区别

带有动画效果的天气卡片al工具

再来看个不算太难但很能体现设计功底的题目：带有动画效果的天气卡片豆包打开

你是 Apple Inc 的 UI 设计师，以 iOS 18 的设计风格做一个带有动画效果的天气卡片，要求是使用 HTML、CSS 和基础 JavaScript，使用横板天气页面（拥有 4 个天气卡片 (晴天，大风，暴雨，暴雪))。应足够美观，实现一定的交互效果。a1官方免费下载

先看下豆包大模型1.6的效果：百度ai虚拟聊天

然后是 Kimi K2：百度ai虚拟聊天

看下 Gemini 2.5 pro 的效果：智能体和ai的区别

这是 Claude 4 效果：a1官方免费下载

最后看下 Qwen 3 出来的效果：豆包打开

结论：这一轮中 Kimi K2 稍微有点不及预期，但 Qwen 3 和 doubao 1.6 表现不错，甚至比 Gemini 2.5 pro 稍微好些。viggle ai

为了方便对比，我还特意做了豆包大模型 1.6 和 Gemini 2.5 pro 同框：a1官方免费下载

Gemini2.5 Pro 生成的结果功能上没问题，但整体设计偏保守，动画效果简单，交互反馈不够细腻。晴天卡片上的太阳就像个静止的emoji，大风卡片的云朵动效卡顿得像PPT翻页。即梦官网网页版

豆包大模型1.6完美复刻了 iOS 18 的毛玻璃效果，连高斯模糊参数都调得和官网一致，看来豆包大模型1.6 在 UI 设计细节处理上确实下了一番功夫！千问是个什么软件

设计 breakout 游戏al工具

再来看个经典的游戏场景：设计 breakout 游戏al解说大师下载

创建一个简单的breakout游戏作为单个html页面。viggle ai

先看下豆包大模型1.6 效果：千问是个什么软件

接下来是 Kimi K2 效果：百度ai虚拟聊天

Gemini2.5 Pro 效果如下：ai的可怕之处

Claude 效果如下：al解说大师下载

Qwen3 出来的效果：agent智能体

结论：这一轮国产模型胜过 Claude 和 Gemini 2.5 Pro，无论是效果还是真实可玩性上，相对来说，豆包大模型 1.6 和 Qwen 3 效果最好。ai的可怕之处

《木兰辞》的动态页面可灵ai国际版

接下来是一个有意思的 case：《木兰辞》的动态页面人工智能ia

帮我创建一个竖排展示《木兰辞》的动态页面，页面整体采用深色背景，文字为白色或浅色，字体简洁，适合长时间阅读。具体要求如下：千问是个什么软件

1、清除掉原诗文的格式，只保留标点。所有文字竖向排列，也即使垂直方向从上到下排列。2、整体为白色文字，背景色为纯黑色，字体为宋体。页面的 Padding 为10px。根据展示效果自动调整好大小。al解说大师下载

3、风格简约高级。豆包打开

4、屏幕最右侧第一列垂直展示诗文标题，标题字号比正文大 5 px。a1官方免费下载

5、从右侧第二列开始，依次继续垂直自上而下逐字展示诗词内容。每一竖列排满后，朝该列左侧方向换下一列就像展示。以此类推。龙虾ai下载

6、每一列文字只有当距离底部 Padding 为 20px 时，才需要起新的一列。但注意，不要让标点打头。ai开源什么意思

7、每列文字左侧都有竖向的细白色分割线。即梦官网网页版

豆包 APP 效果如下：百度ai虚拟聊天

Kimi K2 效果如下：agent智能体

Gemini2.5 Pro 效果：人工智能ia

Claude 4 效果：a1官方免费下载

Qwen 3 效果：商汤科技

结论：这个 case，表现最好的当属豆包 APP，无论是文字效果还是底部 Padding 都不错，Kimi K2 和 Claude 4 勉强也过得去，但 Qwen 3 和 Gemini 2.5 Pro 就有点抽象了，Gemini 2.5 Pro 直接出不来效果，Qwen 3 没遵循我的要求。可灵ai国际版

六边形弹力小球测试agent智能体

六边形弹力小球测试属于测试模型能力的经典 Case，我们看看各家模型能力如何。提示词：al工具

编写一个 Python 程序，使用 Pymunk 和 Pygame 模拟以下场景：一个正六边形围绕其中心点以恒定角速度缓慢旋转，六边形的六条边作为刚体墙壁，内部有一个小球。小球受重力、摩擦力和弹力的影响，在六边形内部弹跳。中心点位置保持不变，模拟小球的弹跳运动轨迹，并显示动画效果。确保物理模拟真实，包含碰撞检测和适当的物理参数（如摩擦系数、弹性系数）。代码需包含详细注释，说明每个部分的功能。ai智能体十大龙头

这个测试相当有难度，需要精确的物理计算和碰撞检测。千问是个什么软件

来看看 Kimi K2 出来的：ai智能体十大龙头

Claude4 的效果如下：可灵ai国际版

另外我同时对比了下用豆包大模型 1.6 和 Minimax agent 做出来的效果：豆包打开

结论：部分模型无法直出效果，Claude4、豆包大模型 1.6碰撞检测精准，没有出现穿透边界的情况，且六边形旋转与小球运动完全同步。kimi手机版

电商产品详情页管理工具人工智能ia

下面来看个实际编程 case，做电商产品详情页管理工具，提示词如下：可灵ai国际版

从零开始实现一个web电商产品详情页管理工具，包括图片预览、SKU选择、动态定价和性能优化viggle ai

1、强调超大字体或数字突出核心要点，画面中有超大视觉元素强调重点，与小元素的比例形成反差agent智能体

2、中英文混用，中文大字体粗体，英文小字作为点缀agent智能体

3、简洁的勾线图形化作为数据可视化或者配图元素千问是个什么软件

4、运用高亮色自身透明度渐变制造科技感，但是不同高亮色不要互相渐变kimi手机版

5、模仿 apple 官网的动效，向下滚动鼠标配合动效a1官方免费下载

6、数据可以引用在线的图表组件，样式需要跟主题一致人工智能ia

7、使用 Framer Motion （通过CDN引入）ai智能找客户

8、使用HTML5、TailwindCSS 3.0+（通过CDN引入）和必要的JavaScriptai无限制词,免费

9、使用专业图标库如Font Awesome或Material Icons（通过CDN引入）ai的可怕之处

先看下豆包 APP 效果：商汤科技

Kimi K2 效果：a1官方免费下载

Gemini 2.5 pro 效果：可灵ai国际版

Claude 4 效果：人工智能ia

结论：这个 case 明显可以看到豆包大模型 1.6 的表现有点突出，Claude 4 也还不错，我还把豆包大模型 1.6 和 Kimi 做下下对比放在一起，效果感受一下：人工智能ia

迷宫可视化工具即梦官网网页版

下面来 PK 一下迷宫生成与路径查找，这个 case 可以说能很好的考察模型的编程和 agent 能力。提示词如下：可灵ai国际版

创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫，并逐步可视化 A* 算法的求解过程。使用画布和动画，使其具有视觉吸引力。ai开源什么意思

同样，先来看看豆包大模型 1.6 生成的效果：龙虾ai下载

再来看看 Kimi K2：可灵ai国际版

Gemini 2.5 pro 效果：豆包打开

Claude 4 效果：千问是个什么软件

Qwen 3 效果：ai智能体十大龙头

结论：整体都完成了任务，但从迷宫设计落错上，豆包大模型 1.6 和 Kimi K2 效果表现更好，动画效果更流畅，甚至在ai无限制词,免费

– 墙壁碰撞时有轻微的震动反馈。豆包打开

我也单独把 Qwen 3 和豆包大模型 1.6 拿出来对比了下，就这个 case 来说，豆包大模型 1.6 效果更好一些。百度ai虚拟聊天

CSV文件分析并做图表agent智能体

提取 CSV 文件信息分析后做图表能力，我分别测了各大模型，目前感受下来，差距不大。商汤科技

分析一份CSV文件中的销售数据，计算总收入并生成图表。ai无限制词,免费

这是豆包大模型 1.6 的结果：ai开源什么意思

这是 Kimi K2 效果：ai无限制词,免费

Gemini 2.5 pro：千问是个什么软件

其余几个模型基本效果类似，就不一一截图了。可灵ai国际版

图片识别-逻辑计算即梦官网网页版

这个 case 主要考察大模型的多模态理解以及逻辑计算能力，提示词如下：百度ai虚拟聊天

从图片中获取商品的价格，再分别计算后相加kimi手机版

这个是素材图片：商汤科技

测试图片中包含：ai无限制词,免费

主图：商品特写，每个商品都有价格
图片中商品的价格分别为：进口香蕉600g/份¥6.98、灵芝盆栽1束/份¥19.9、千禧小西红柿500g/盒¥6.98、洪湖小龙虾¥8.9。将这些价格相加可得：6.98+19.9+6.98+8.9=42.76元。

这里识别效果最好的是豆包大模型 1.6，它额外指出了：额外指出：”注意图片右下角有领劵活动，建议用户凑单更划算”a1官方免费下载

视频识别-动作评分人工智能ia

给一个猫咪跳水运动的视频，给到不同模型，发现在火山上体验的豆包大模型 1.6 支持视频解析。可灵ai国际版

可以看到回复中能理解视频并做分析。智能体和ai的区别

而 Kimi、Claude 4 暂时还不支持该能力：百度ai虚拟聊天

目前测下来，豆包大模型 1.6 和 Gemini 2.5 pro 在这块上不分伯仲。商汤科技

特别值得一提的是，豆包大模型 1.6 原生就支持定位能力，效果非常给力。人工智能ia

说到多模态这块，大家还记得豆包Seedream 4.0，效果相当炸裂。al工具

总结agent智能体

由于篇幅有限，只能提供比较明显的对比；实则我测试过好多横向对比。agent智能体

可以看到，就编码和 Agent 能力，真的不是 Claude 一家独大，我们测试了非常多的 case，表明，像豆包大模型1.6、Kimi、Qwen 3 表现都还不错，有时候甚至超过了 Claude 4.即梦官网网页版

而对于多模态能力，Claude 4 更不值一提，豆包大模型 1.6 的多模态能力测下来效果是最好的。a1官方免费下载

所以，Claude，是什么让你如此猖狂？视我们为敌对，一直封禁？人工智能ia

经过这一轮细节控大比拼，我发现一个有趣的现象：虽然市面上有很多优秀的 AI 大模型，但在某些特定领域，豆包大模型 1.6 的表现确实令人印象深刻：ai智能找客户

● UI设计能力：豆包大模型 1.6 对视觉细节的把握堪称一绝，连阴影参数都调得恰到好处可灵ai国际版

● 代码质量：结构清晰、注释详尽，物理参数设置合理kimi手机版

● 工具集成：原生支持MCP协议，与外部工具协同工作更加顺畅ai开源什么意思

● 多模态分析：不仅能识别内容，还能提供专业级深度分析豆包打开

当然，其他模型也各有所长：Kimi K2在文本处理上更胜一筹，Claude Sonnet 4.5的逻辑推理能力突出，Gemini2.5 Pro的创意写作能力非凡，Minimax在特定领域知识丰富，Qwen3-Coder的代码生成效率惊人。千问是个什么软件

几个月后，我相信，模型能力又将会有天翻地覆变化。豆包打开

让我们好好见证下这个时代吧。ai开源什么意思

al解说大师下载

作者【苍何】，微信公众号：【苍何】ai智能找客户

# 行业动态百度ai虚拟聊天

文章版权归作者所有，未经允许请勿转载。kimi手机版

月下载增长991.55%，让用户创作互动小说+拿奖励，AI社交还能这样玩？ai无限制词,免费

人人都是产品经理即梦官网网页版

401

AI的可用性到什么程度了？我们和几位一线内容从业者聊了聊ai智能体十大龙头

人人都是产品经理人工智能ia

530

实测 Atlas：OpenAI 的浏览器，由 Chrome 骨干开发agent智能体

人人都是产品经理ai无限制词,免费

345

时隔两年多，OpenAI发布GPT-5，从高中生跃升为博士？ai开源什么意思

人人都是产品经理百度ai虚拟聊天

430

A16Z合伙人最新判断：AI法律谁能跑出来，就看这三条豆包打开

人人都是产品经理千问是个什么软件

378

OpenAI推出ChatGPT Pulse，主动为用户生成晨报人工智能ia

人人都是产品经理ai智能体十大龙头

380