昨天,号称 CloseAI 的 OpenAI 终于 open 了一回,发布了两款开源模型,gpt-oss-120b 和 gpt-oss-20b

Pasted image 20250807102225

两款模型都采用了最宽松的 Apache 2.0 开源协议,和 DeepSeek R1 一样,随便你用,拿去赚钱也行。

官方宣称,Gpt-oss-120b 模型在核心推理基准测试中与 OpenAI o4-mini 模型几乎持平,参数更小的 Gpt-oss-20b 模型,在常见基准测试中也与 OpenAI o3‑mini 模型水平相当。

Pasted image 20250807125637

下图是在竞赛编程中的模型对比:

截屏2025-08-07 10.28.25

下图是在竞赛数学中的表现,可以看出即便是 20b 参数的小模型,也已经和 o4-mini 持平了。

Pasted image 20250807103037

而且,Gpt-oss-20b 可在 16G 内存的设备上轻松运行,比如手机,简直吊炸天。

所以,我打算在我的 M4 Pro 上部署一下这个 20b 模型,看看它到底实力如何,说不定还能帮助我辅导孩子的小学数学作业。

开干。

Pasted image 20250807125720

一、下载

要运行本地模型,用到的工具还是我们的老朋友:Ollama

Pasted image 20250807103434

可以去官网下载:

https://ollama.com

多日不见,Ollama 已经具备了图形界面,还可以直接在软件里和大模型聊天,不再需要ChatX 之类的第三方调用工具了,十分方便。

Pasted image 20250807103748

在聊天窗口下方选择 gpt-oss:20b,随便发点什么东西,软件会自动开始下载模型,大概13G,很快就能下好。

二、测试

好,现在我们来测试下它的水平。

第一题,翻译。

请将以下句子翻译成地道的英文:我们应该秉持绿水青山就是金山银山的理念,走可持续发展的道路。

它用英文思考了五秒,给出了答案:

Pasted image 20250807104314

什么是 green waters?这直译有点上头了,看来不太行。

Pasted image 20250807125809

第二题,试试小学数学。

一个篮子里有苹果和香蕉,总共20个。如果苹果的数量是香蕉的3倍,那么苹果和香蕉各有多少个?请写出思考过程。

它推理了1秒钟,开始输出答案,速度飞快,结果也没问题。很好,可以用来辅导孩子作业了。

Pasted image 20250807104849

第三题,AI送命题。

一个人拿着一根5米长的杆子,如何进入一道1米宽、2米高的门?

它足足思考了七十多秒,一本正经地胡说八道了一大堆,仿佛像个弱智:

Pasted image 20250807105431

不过,这个问题大多数AI都答不上来,gpt-oss 20b 如此表现也算正常。

Pasted image 20250807125839

第四题,写作。

请以”我醒来时,发现自己在一艘漂浮在云海中的船上”为开头,续写一个300字左右的奇幻故事。

思考的时间有点久,质量一般,但至少比我写得好。

Pasted image 20250807111220

有意思的是,你点开它的思考过程,发现它大多数时候在数字数,为了满足300字左右的要求,哈哈。

Pasted image 20250807111536

好了,就测试到这里。

gpt-oss 20b 给我的最大感觉就是「」,运行的时候 CPU 风扇都不转,可见性能非常好,日常离线使用非常高效,适合搭个本地知识库什么的。

Pasted image 20250807130025

未来已来,或许不久以后,你硬盘中的那个超级智能,正等待着你的唤醒。

Pasted image 20250807111829

By nanikun

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注