昨天,号称 CloseAI 的 OpenAI 终于 open 了一回,发布了两款开源模型,gpt-oss-120b 和 gpt-oss-20b。

两款模型都采用了最宽松的 Apache 2.0 开源协议,和 DeepSeek R1 一样,随便你用,拿去赚钱也行。
官方宣称,Gpt-oss-120b 模型在核心推理基准测试中与 OpenAI o4-mini 模型几乎持平,参数更小的 Gpt-oss-20b 模型,在常见基准测试中也与 OpenAI o3‑mini 模型水平相当。

下图是在竞赛编程中的模型对比:

下图是在竞赛数学中的表现,可以看出即便是 20b 参数的小模型,也已经和 o4-mini 持平了。

而且,Gpt-oss-20b 可在 16G 内存的设备上轻松运行,比如手机,简直吊炸天。
所以,我打算在我的 M4 Pro 上部署一下这个 20b 模型,看看它到底实力如何,说不定还能帮助我辅导孩子的小学数学作业。
开干。

一、下载
要运行本地模型,用到的工具还是我们的老朋友:Ollama。

可以去官网下载:
多日不见,Ollama 已经具备了图形界面,还可以直接在软件里和大模型聊天,不再需要ChatX 之类的第三方调用工具了,十分方便。

在聊天窗口下方选择 gpt-oss:20b,随便发点什么东西,软件会自动开始下载模型,大概13G,很快就能下好。
二、测试
好,现在我们来测试下它的水平。
第一题,翻译。
请将以下句子翻译成地道的英文:我们应该秉持绿水青山就是金山银山的理念,走可持续发展的道路。
它用英文思考了五秒,给出了答案:

什么是 green waters?这直译有点上头了,看来不太行。

第二题,试试小学数学。
一个篮子里有苹果和香蕉,总共20个。如果苹果的数量是香蕉的3倍,那么苹果和香蕉各有多少个?请写出思考过程。
它推理了1秒钟,开始输出答案,速度飞快,结果也没问题。很好,可以用来辅导孩子作业了。

第三题,AI送命题。
一个人拿着一根5米长的杆子,如何进入一道1米宽、2米高的门?
它足足思考了七十多秒,一本正经地胡说八道了一大堆,仿佛像个弱智:

不过,这个问题大多数AI都答不上来,gpt-oss 20b 如此表现也算正常。

第四题,写作。
请以”我醒来时,发现自己在一艘漂浮在云海中的船上”为开头,续写一个300字左右的奇幻故事。
思考的时间有点久,质量一般,但至少比我写得好。

有意思的是,你点开它的思考过程,发现它大多数时候在数字数,为了满足300字左右的要求,哈哈。

好了,就测试到这里。
gpt-oss 20b 给我的最大感觉就是「快」,运行的时候 CPU 风扇都不转,可见性能非常好,日常离线使用非常高效,适合搭个本地知识库什么的。

未来已来,或许不久以后,你硬盘中的那个超级智能,正等待着你的唤醒。
