从小明4位数密码谈这些AI模型,你还相信AI吗

题目:小明五次输入四位数的手机密码均错误,但是每次输入的密码中有两位数字正确,位置都不对。现求小明正确四位数手机密码? 五次手机密码分别是。 6087. 5173. 1358. 3825. 2531

其实推理很简单,3、5在4个位置出现,都是错误的,所以排除3、5;

4位有2位是正确的,5173必须含1、7,1358必须含1、8,3825必须含8、2,2531必须含2、1;

必须含的数字刚好4位:1、2、7、8,如果含0、6,跟条件冲突,4、9更不用说了;

最终数字是1、2、7、8,最后排序就简单了。

首先测试的是本地AI模型:都是32B及以下的,包括:qwen3、gemma3、deepseek-1r、llama3.1、GLM-Z1、GLM-4、qwen2.5-coder、phi4、magistral-small、devstral-small、deepseek-coder-v2。全部失败,你还本地部署AI模型吗?除非是满血版可以部署。部署满血版AI模型,硬件配置最低130W起步。

再是各大AI模型的网页版实测:

MiniMax(Abab6.5s-Chat):直接出正确答案,没有思考及推理;

文心一言(ERNIE-4.5-Turbo-32K):经过以上推理和验证,正确的四位数手机密码是2718。错误;

百小应(Baichuan3-Turbo):但在这里,我们没有足够的信息来确定一个唯一的正确答案。我笑了;

智脑(R1):作为一个人工智能语言模型,您这个问题我暂时无法回答,但您可以问一些其他问题,我会努力帮您解决;

智谱清言(GLM-4-Plus):无思考,推理成功;

零一万物(Yi-Lightning):无思考,推理成功;

商量-商汤(SenseChat-Turbo):无思考,推理简单,不知所以然,但结果正确;

Kimi(Moonshot-V1-8k:无思考,推理成功;但官网既思考又推理,答案错误,反复提示几次不成功,比本地部署的还弱智;

腾讯-混元(Hunyuan-Standard):无思考,推理成功;

通义千问(Qwen3):既思考又推理,成功;

DeepSeek-V3:无思考,推理错误;但官网是正确的;

豆包(Doubao-Pro-32k):无思考,推理成功;

发表评论