是。不过,这个测试除了追问问题时,其他每次都清除了上下文,而且保持同样的参数。
...
说错了,是temperature。你把temperature设为0了吗? pekingmine 发表于 2025-2-19 07:47
用Microsoft Azure再试,提示词换成你这个,也没有回答准确。初步看来不是提示词引起,可能是算法程序有 ...
不同平台可能用的量化版本不一样,这才是平台之间最大的差异。 用7B 的 Qwen2.5 和 deepseekR1 7B 蒸馏模型,也差不多。
我觉得这问题没有逻辑性,更像是脑筋急转弯。 Technik 发表于 2025-2-19 09:26
说错了,是temperature。你把temperature设为0了吗?
没用。刚设置为0重试,也是给出两次的答案。 Technik 发表于 2025-2-19 09:28
不同平台可能用的量化版本不一样,这才是平台之间最大的差异。
问题是,不自己部署,用第三方平台API的话,几乎没有答对的(除了楼上提到的盘古)。而用API是成本最低的,但受制于平台部署的版本。
包括官方的,只有在Web界面,答案才是对的;用APP版本,同样给出错误答案。也就即使官方重新开放API,估计也是接入的给错误答案的平台版本。
gyc 发表于 2025-2-19 09:54
用7B 的 Qwen2.5 和 deepseekR1 7B 蒸馏模型,也差不多。
我觉得这问题没有逻辑性,更像是脑筋急转弯。 ...
对大数据而言,每种可能性都只是数据分析与处理。对人类而言,才有脑筋急转弯的说法吧。 本帖最后由 canonguy 于 2025-2-19 12:08 编辑
下载了本地部署的 8b模型,问了这个问题:马斯克的doge效率部发挥了什么作用?完全答非所问。。。[偷笑]
感觉是问题太宽泛了。。。问的不好。。。 本帖最后由 pekingmine 于 2025-2-19 12:46 编辑
pekingmine 发表于 2025-2-18 21:29
1楼使用部署在Microsoft Azure平台中的DeepSeek-R1满血版测试的,配置了少有的128KB上下文。
看到楼上不同 ...
补充,
腾讯云,R1满血,答案也是两次。回答其最新数据是2023年10月16日。
阿里云,R1满血,答案也是两次。回答其最新数据是2023年10月。
至此,云端开放满血DeepSeek-R1 API的已知这些平台,验证全部阵完。 pekingmine 发表于 2025-2-19 11:20
没用。刚设置为0重试,也是给出两次的答案。
temp为0不是说结果一定最正确,只是保证按照最大概率选择下文输出。不过是否每次能完全一样没在deepseek上测试过。
temp不为0,那么同一个部署下可能每次出来不一样的结果。 gyc 发表于 2025-2-19 09:54
用7B 的 Qwen2.5 和 deepseekR1 7B 蒸馏模型,也差不多。
我觉得这问题没有逻辑性,更像是脑筋急转弯。 ...
我在本地上的1.5B或是7B上也问过,1.5B一开始的思路就有问题,它直接忽略了50kg的限制,指出了错误也不行,反正就是要按1-100来取,不管最后是有多重。更气人的是我把正确的方法告诉它,它还是会无视50kg,回到n堆取n枚这个逻辑,并告诉你这个没问题。
7B能正确判断出取到100枚会超重,但会弱智的认为第100堆也需要称重,但后续思考的方法也是忘记了50kg的限制,不过好的地方在于我指出这个错误后,他会正确验算出这个答案是错误。
然后又开始重新回到n堆取n枚,第100堆怎么办的逻辑,要注意的是测试的满血R1在计算是否超重时能很快得出第99堆时最大重量达可能会达到49599克,但7B在思考中一直认为是49500克,并在我给出正确是1次,并且提示它最多只用取4950枚硬币时,他会无视只用取4950枚这个提示,循环判断我可以取到99堆,第100堆怎么办,我在第100堆能不能少取,比如取50枚,然后再计算是不是超了50kg,如果全是真币没超,第100堆是假币时超没超,如果超了是不是要称多次,但是只能称一次,然后又循环来一次,这次第100堆取45枚,每次都会告诉自己可以改变每堆的取值,但每次都不变就要从1开始,他也知道会出现前99堆时都是真币,但就要去称100堆。思考进入循环后,他也能在思考中得出我只要取到第99堆就行了,这样不会超重,也能得到答案,但下步进入要生成答案的思考时又回到了100堆会取100枚所以超重了。
还有一个搞笑的地方是,他也会思考出需要改变所取金币的数量,但每次还是n堆取n枚。
这题就是普通的数学题加上了点逻辑判断,比如在知道n堆取n枚这种解法后得明白,第100堆不需要称重判断这个逻辑;或是直接举一反三,得到n堆取n-1枚也行。 pekingmine 发表于 2025-2-19 11:27
问题是,不自己部署,用第三方平台API的话,几乎没有答对的(除了楼上提到的盘古)。而用API是成本最低的 ...
短时间内我们还没法用API(就算有)来解这类题目,因为生成时间很长,而且结果不一定对。现在也就文本分析和写作是可以用用的。 redog 发表于 2025-2-19 12:33
我在本地上的1.5B或是7B上也问过,1.5B一开始的思路就有问题,它直接忽略了50kg的限制,指出了错误也不行 ...
因为1.5B这种很小的模型对上文的记忆力很差,就算把上下文拉到足够长度也没用。或者说它的关注点完全在怎么取上面,等分析完怎么取,你说的50kg它早忘了。 本地部署的 DeepSeek-R1-Distill-Qwen-14B
>>> 有100堆外观相同的金币,每堆100个。其中某一堆中的所有金币都是假币,而其他堆中的所有金币都是真币,每枚真币重10克,每枚
... 假币重11克。你有一台最大称重50Kg的电子秤可以称重,那么要识别出有假币的那一堆,最少需要几次称重?
<think>
好的,我现在面对的问题有点复杂,但是我觉得通过一步步分析应该能解决。首先,我来理解问题。
题目是说有100堆金币,每堆都有100个金币。其中只有一堆的金币是假币,其他的都是真币。真币每个重10克,假币每个重11克。有
一个电子秤,最大可以称重50公斤(也就是50,000克)。现在需要用这个秤最少几次称量,才能找出哪一堆有假币。
首先,我需要明确几个关键点:
- 金币堆数:100堆
- 每堆的金币数量:100个
- 真币重量:每个10克
- 假币重量:每个11克
- 称重限制:最多50,000克
我的目标是用最少次数的称量,确定哪一堆有假币。那么,我需要找到一种方法,利用每次称量的信息,最大限度地缩小可能范围。
### 第一步:思考单次称量能提供的信息
假设我每次从不同堆中取出一定数量的金币来称重,这样总重量会因为假币的存在而有所不同。通过这些差异,我可以推断出哪一堆
是假币。
例如,如果我从第k堆取1个金币,其他堆取0个,那么称重结果为:
- 如果k堆是真币:重量 = 1 × 10 = 10克
- 如果k堆是假币:重量 = 1 × 11 = 11克
这样,通过一次称量只能确定一个特定的堆是否是假币。显然,这对于100堆来说是不够的,因为要逐个检查。
### 第二步:考虑多次称量的可能性
如果我进行两次称量,每次从不同的堆中取不同数量的金币,那么可以覆盖更多的信息。
例如:
- 第一次称量:从第1到第50堆各取1个金币,总重量应该是50 × 10 = 500克。但如果有假币存在,实际重量会比500克多出一些。
- 第二次称量:从第51到第100堆各取1个金币,总重量应该是50 × 10 = 500克,同样可能会有增加。
通过比较两次称量的实际重量与预期的差异,可以确定假币在哪一组(前50堆或后50堆)。
### 第三步:优化称量策略
显然,上述方法需要至少两次称量。但是,是否可以用更少次数完成呢?考虑到每次称量可以覆盖更多的信息,也许可以通过一次称
量同时包含所有100堆的信息来确定假币的位置。
例如,采用编号的方式:
- 从第k堆取k个金币,这样总重量会因为假币的存在而增加k克。
- 称重结果W = 55 × 10 + k = 550 + k克
- 因此,Δ = W - 550 = k
这个方法只需要一次称量就能确定假币的位置。不过,我需要确认这种方法是否在重量限制内。
每堆取k个金币,其中k从1到100,因此最多要取100个金币,总重量为550 + 100 = 650克,远低于50,000克的限制。所以这个方法是
可行的。
### 第四步:验证思路
让我再详细验证一下:
- 假设第k堆是假币,那么从第k堆取了k个金币,每个重11克。
- 其他堆取了(总数为55个),每个重10克。
- 总重量 = 55 × 10 + k = 550 + k克
- 称得的重量W = 550 + k
- Δ = W - 550 = k
因此,通过一次称量就能直接得到k的值,也就是假币所在的堆数。
### 第五步:考虑特殊情况
如果真的取了100个金币来称重,总重量为650克,这在电子秤的最大称重范围内(50,000克),没有问题。因此,这个方法是有效的
,并且只需要一次称量。
### 总结
通过从每一堆取出不同数量的金币进行一次称量,可以利用重量差异直接确定假币所在的堆数。因此,最少需要1次称重即可完成任
务。
**答案:**
最少需要一次称重来识别出有假币的那一堆。
</think>
要识别出有假币的那一堆,最少需要1次称重。
**步骤解析:**
1. **编号和取样:**
- 将每一堆从第1到第100依次编号为1到100。
- 从第k堆取出k个金币,即从第1堆取1个,第2堆取2个,依此类推直到第100堆取100个。
2. **称重:**
- 将所有取出的金币一起放在电子秤上称重,记录总重量为W克。
3. **计算预期重量和差异:**
- 正常情况下,如果所有金币都是真币,总重量应为55 × 10 = 550克。
- 实际称得的重量W会比550克多出Δ克,其中Δ即为假币所在堆数k。
4. **确定假币堆:**
- 计算Δ = W - 550。由于每枚假币重11克,因此Δ就是k的值。
- 结果即为第k堆是假币所在的位置。
**答案:** 最少需要一次称重即可找出假币所在的那一堆。
total duration: 45.958723s
load duration: 11.4755ms
prompt eval count: 1066 token(s)
prompt eval duration: 248ms
prompt eval rate: 4298.39 tokens/s
eval count: 1292 token(s)
eval duration: 45.391s
eval rate: 28.46 tokens/s Technik 发表于 2025-2-19 12:34
短时间内我们还没法用API(就算有)来解这类题目,因为生成时间很长,而且结果不一定对。现在也就文本分 ...
你单位部署的可以答对,说明存在可用的解答能力。
然而,验证了提供API访问的上面各平台,全部翻车。小艺的,没有某为手机,通过网页版验证https://xiaoyi.huawei.com,也是答的两次。
等同于告知大家一个结论,坐享其成直接用云平台提供的R1满血版,都不行。都不如你单位部署的,以及DeepSeek官网网页版的。
简单说,别人的那些大的云平台,不如你单位自己部署得好。不知道你单位用了什么特殊的资源或者配置,总之目前强过了上面全部提供API的云平台^_^
dirnet 发表于 2025-2-19 12:47
本地部署的 DeepSeek-R1-Distill-Qwen-14B
结论对,过程错,“每堆取k个金币,其中k从1到100,因此最多要取100个金币,总重量为550 + 100 = 650克,远低于50,000克的限制。所以这个方法是
可行的。” 计算错误,导致以为没有超重。 pekingmine 发表于 2025-2-19 09:15
麻将高手啊^_^
不知道有哪个版本的模型能答对?
答案对,过程错;让我想到了是不是搜到了,闻到过类似的题目;
上面称金币的问题,如果换成其他不同的东西,换一种说法,但重量不变; 模型可以答对吗? redog 发表于 2025-2-19 12:33
我在本地上的1.5B或是7B上也问过,1.5B一开始的思路就有问题,它直接忽略了50kg的限制,指出了错误也不行 ...
我还想了想,这个问题只有这一种取法吗?
我只要每堆取得数量不一样,记录好第i堆取的数量为j,也是可行得;
为什么想不到呢? fairness 发表于 2025-2-19 13:22
我还想了想,这个问题只有这一种取法吗?
我只要每堆取得数量不一样,记录好第i堆取的数量为j,也是可 ...
每堆都取不同数量,就超重了。而刚好减1堆不取,就在重量范围内。
所以,实际只有少取1堆的这一种取法。
操作上,要么以0为基数,第一堆不取,0~99;要么以1为基数,最末堆不取,1~99。总之是减1堆不取就行。 本帖最后由 pekingmine 于 2025-2-19 14:26 编辑
pekingmine 发表于 2025-2-19 12:18
补充,
腾讯云,R1满血,答案也是两次。回答其最新数据是2023年10月16日。
阿里云,R1满血,答案也是两次 ...
再补充一个意外,
阿里云,R1满血,调整上下文输出为32000之后,可以正确解答,但不是100%,试三次,第一次对、第二次错、第三次对。这算是到目前为止,惟一或可答对的API R1满血平台。综上,乐观估计,R1的更新迭代版本应该没有这个问题了。
对的两次:
pekingmine 发表于 2025-2-19 12:58
你单位部署的可以答对,说明存在可用的解答能力。
然而,验证了提供API访问的上面各平台,全部翻车。小艺 ...
现在就算答对也不能说明它有正确解答这类问题的能力。我感觉更多的是根据上下文把它的答案写出来,而不是通过一个系统性的思路来解题解出来的。
之前其实就讨论过,大模型解这类问题是不是靠把答案背下来。
在perplexity上简单比较了几个模型,gemini 2.0 flash逻辑感人
Technik 发表于 2025-2-19 19:46
在perplexity上简单比较了几个模型,gemini 2.0 flash逻辑感人
1/2金币真是魔幻^_^ Technik 发表于 2025-2-19 19:38
现在就算答对也不能说明它有正确解答这类问题的能力。我感觉更多的是根据上下文把它的答案写出来,而不是 ...
昨天试阿里的可以答对了,隔了一天,怎么也答不对了。你说的对,能解释这个现象。
页:
1
[2]