DeepSeek R1满血版还有进步空间 - 第2页 - 电脑讨论(新) - Chiphell - 分享与交流用户体验

Technik 发表于 2025-2-19 09:26

pekingmine 发表于 2025-2-19 07:39
是。不过，这个测试除了追问问题时，其他每次都清除了上下文，而且保持同样的参数。
...

说错了，是temperature。你把temperature设为0了吗？

Technik 发表于 2025-2-19 09:28

pekingmine 发表于 2025-2-19 07:47
用Microsoft Azure再试，提示词换成你这个，也没有回答准确。初步看来不是提示词引起，可能是算法程序有 ...

不同平台可能用的量化版本不一样，这才是平台之间最大的差异。

gyc 发表于 2025-2-19 09:54

用7B 的 Qwen2.5 和 deepseekR1 7B 蒸馏模型，也差不多。

我觉得这问题没有逻辑性，更像是脑筋急转弯。

pekingmine 发表于 2025-2-19 11:20

Technik 发表于 2025-2-19 09:26
说错了，是temperature。你把temperature设为0了吗？

没用。刚设置为0重试，也是给出两次的答案。

pekingmine 发表于 2025-2-19 11:27

Technik 发表于 2025-2-19 09:28
不同平台可能用的量化版本不一样，这才是平台之间最大的差异。

问题是，不自己部署，用第三方平台API的话，几乎没有答对的（除了楼上提到的盘古）。而用API是成本最低的，但受制于平台部署的版本。
包括官方的，只有在Web界面，答案才是对的；用APP版本，同样给出错误答案。也就即使官方重新开放API，估计也是接入的给错误答案的平台版本。

pekingmine 发表于 2025-2-19 12:00

gyc 发表于 2025-2-19 09:54
用7B 的 Qwen2.5 和 deepseekR1 7B 蒸馏模型，也差不多。

我觉得这问题没有逻辑性，更像是脑筋急转弯。 ...

对大数据而言，每种可能性都只是数据分析与处理。对人类而言，才有脑筋急转弯的说法吧。

canonguy 发表于 2025-2-19 12:01

本帖最后由 canonguy 于 2025-2-19 12:08 编辑

下载了本地部署的 8b模型，问了这个问题：马斯克的doge效率部发挥了什么作用？完全答非所问。。。[偷笑]

感觉是问题太宽泛了。。。问的不好。。。

pekingmine 发表于 2025-2-19 12:18

本帖最后由 pekingmine 于 2025-2-19 12:46 编辑

pekingmine 发表于 2025-2-18 21:29
1楼使用部署在Microsoft Azure平台中的DeepSeek-R1满血版测试的，配置了少有的128KB上下文。

看到楼上不同 ...

补充，
腾讯云，R1满血，答案也是两次。回答其最新数据是2023年10月16日。
阿里云，R1满血，答案也是两次。回答其最新数据是2023年10月。

至此，云端开放满血DeepSeek-R1 API的已知这些平台，验证全部阵完。

Technik 发表于 2025-2-19 12:20

pekingmine 发表于 2025-2-19 11:20
没用。刚设置为0重试，也是给出两次的答案。

temp为0不是说结果一定最正确，只是保证按照最大概率选择下文输出。不过是否每次能完全一样没在deepseek上测试过。

temp不为0，那么同一个部署下可能每次出来不一样的结果。

redog 发表于 2025-2-19 12:33

gyc 发表于 2025-2-19 09:54
用7B 的 Qwen2.5 和 deepseekR1 7B 蒸馏模型，也差不多。

我觉得这问题没有逻辑性，更像是脑筋急转弯。 ...

我在本地上的1.5B或是7B上也问过，1.5B一开始的思路就有问题，它直接忽略了50kg的限制，指出了错误也不行，反正就是要按1-100来取，不管最后是有多重。更气人的是我把正确的方法告诉它，它还是会无视50kg，回到n堆取n枚这个逻辑，并告诉你这个没问题。

7B能正确判断出取到100枚会超重，但会弱智的认为第100堆也需要称重，但后续思考的方法也是忘记了50kg的限制，不过好的地方在于我指出这个错误后，他会正确验算出这个答案是错误。
然后又开始重新回到n堆取n枚，第100堆怎么办的逻辑，要注意的是测试的满血R1在计算是否超重时能很快得出第99堆时最大重量达可能会达到49599克，但7B在思考中一直认为是49500克，并在我给出正确是1次，并且提示它最多只用取4950枚硬币时，他会无视只用取4950枚这个提示，循环判断我可以取到99堆，第100堆怎么办，我在第100堆能不能少取，比如取50枚，然后再计算是不是超了50kg，如果全是真币没超，第100堆是假币时超没超，如果超了是不是要称多次，但是只能称一次，然后又循环来一次，这次第100堆取45枚，每次都会告诉自己可以改变每堆的取值，但每次都不变就要从1开始，他也知道会出现前99堆时都是真币，但就要去称100堆。思考进入循环后，他也能在思考中得出我只要取到第99堆就行了，这样不会超重，也能得到答案，但下步进入要生成答案的思考时又回到了100堆会取100枚所以超重了。
还有一个搞笑的地方是，他也会思考出需要改变所取金币的数量，但每次还是n堆取n枚。

这题就是普通的数学题加上了点逻辑判断，比如在知道n堆取n枚这种解法后得明白，第100堆不需要称重判断这个逻辑；或是直接举一反三，得到n堆取n-1枚也行。

Technik 发表于 2025-2-19 12:34

pekingmine 发表于 2025-2-19 11:27
问题是，不自己部署，用第三方平台API的话，几乎没有答对的（除了楼上提到的盘古）。而用API是成本最低的 ...

短时间内我们还没法用API（就算有）来解这类题目，因为生成时间很长，而且结果不一定对。现在也就文本分析和写作是可以用用的。

Technik 发表于 2025-2-19 12:36

redog 发表于 2025-2-19 12:33
我在本地上的1.5B或是7B上也问过，1.5B一开始的思路就有问题，它直接忽略了50kg的限制，指出了错误也不行 ...

因为1.5B这种很小的模型对上文的记忆力很差，就算把上下文拉到足够长度也没用。或者说它的关注点完全在怎么取上面，等分析完怎么取，你说的50kg它早忘了。

dirnet 发表于 2025-2-19 12:47

本地部署的 DeepSeek-R1-Distill-Qwen-14B
>>> 有100堆外观相同的金币，每堆100个。其中某一堆中的所有金币都是假币，而其他堆中的所有金币都是真币，每枚真币重10克，每枚
... 假币重11克。你有一台最大称重50Kg的电子秤可以称重，那么要识别出有假币的那一堆，最少需要几次称重？
<think>
好的，我现在面对的问题有点复杂，但是我觉得通过一步步分析应该能解决。首先，我来理解问题。

题目是说有100堆金币，每堆都有100个金币。其中只有一堆的金币是假币，其他的都是真币。真币每个重10克，假币每个重11克。有
一个电子秤，最大可以称重50公斤（也就是50,000克）。现在需要用这个秤最少几次称量，才能找出哪一堆有假币。

首先，我需要明确几个关键点：
- 金币堆数：100堆
- 每堆的金币数量：100个
- 真币重量：每个10克
- 假币重量：每个11克
- 称重限制：最多50,000克

我的目标是用最少次数的称量，确定哪一堆有假币。那么，我需要找到一种方法，利用每次称量的信息，最大限度地缩小可能范围。

### 第一步：思考单次称量能提供的信息
假设我每次从不同堆中取出一定数量的金币来称重，这样总重量会因为假币的存在而有所不同。通过这些差异，我可以推断出哪一堆
是假币。

例如，如果我从第k堆取1个金币，其他堆取0个，那么称重结果为：
- 如果k堆是真币：重量 = 1 × 10 = 10克
- 如果k堆是假币：重量 = 1 × 11 = 11克

这样，通过一次称量只能确定一个特定的堆是否是假币。显然，这对于100堆来说是不够的，因为要逐个检查。

### 第二步：考虑多次称量的可能性
如果我进行两次称量，每次从不同的堆中取不同数量的金币，那么可以覆盖更多的信息。

例如：
- 第一次称量：从第1到第50堆各取1个金币，总重量应该是50 × 10 = 500克。但如果有假币存在，实际重量会比500克多出一些。

- 第二次称量：从第51到第100堆各取1个金币，总重量应该是50 × 10 = 500克，同样可能会有增加。

通过比较两次称量的实际重量与预期的差异，可以确定假币在哪一组（前50堆或后50堆）。

### 第三步：优化称量策略
显然，上述方法需要至少两次称量。但是，是否可以用更少次数完成呢？考虑到每次称量可以覆盖更多的信息，也许可以通过一次称
量同时包含所有100堆的信息来确定假币的位置。

例如，采用编号的方式：
- 从第k堆取k个金币，这样总重量会因为假币的存在而增加k克。
- 称重结果W = 55 × 10 + k = 550 + k克
- 因此，Δ = W - 550 = k

这个方法只需要一次称量就能确定假币的位置。不过，我需要确认这种方法是否在重量限制内。

每堆取k个金币，其中k从1到100，因此最多要取100个金币，总重量为550 + 100 = 650克，远低于50,000克的限制。所以这个方法是
可行的。

### 第四步：验证思路
让我再详细验证一下：

- 假设第k堆是假币，那么从第k堆取了k个金币，每个重11克。
- 其他堆取了（总数为55个），每个重10克。
- 总重量 = 55 × 10 + k = 550 + k克
- 称得的重量W = 550 + k
- Δ = W - 550 = k

因此，通过一次称量就能直接得到k的值，也就是假币所在的堆数。

### 第五步：考虑特殊情况
如果真的取了100个金币来称重，总重量为650克，这在电子秤的最大称重范围内（50,000克），没有问题。因此，这个方法是有效的
，并且只需要一次称量。

### 总结
通过从每一堆取出不同数量的金币进行一次称量，可以利用重量差异直接确定假币所在的堆数。因此，最少需要1次称重即可完成任
务。

**答案：**
最少需要一次称重来识别出有假币的那一堆。
</think>

要识别出有假币的那一堆，最少需要1次称重。

**步骤解析：**

1. **编号和取样：**
- 将每一堆从第1到第100依次编号为1到100。
- 从第k堆取出k个金币，即从第1堆取1个，第2堆取2个，依此类推直到第100堆取100个。

2. **称重：**
- 将所有取出的金币一起放在电子秤上称重，记录总重量为W克。

3. **计算预期重量和差异：**
- 正常情况下，如果所有金币都是真币，总重量应为55 × 10 = 550克。
- 实际称得的重量W会比550克多出Δ克，其中Δ即为假币所在堆数k。

4. **确定假币堆：**
- 计算Δ = W - 550。由于每枚假币重11克，因此Δ就是k的值。
- 结果即为第k堆是假币所在的位置。

**答案：** 最少需要一次称重即可找出假币所在的那一堆。

total duration:    45.958723s
load duration:    11.4755ms
prompt eval count: 1066 token(s)
prompt eval duration: 248ms
prompt eval rate: 4298.39 tokens/s
eval count:       1292 token(s)
eval duration:    45.391s
eval rate:          28.46 tokens/s

pekingmine 发表于 2025-2-19 12:58

Technik 发表于 2025-2-19 12:34
短时间内我们还没法用API（就算有）来解这类题目，因为生成时间很长，而且结果不一定对。现在也就文本分 ...

你单位部署的可以答对，说明存在可用的解答能力。
然而，验证了提供API访问的上面各平台，全部翻车。小艺的，没有某为手机，通过网页版验证https://xiaoyi.huawei.com，也是答的两次。
等同于告知大家一个结论，坐享其成直接用云平台提供的R1满血版，都不行。都不如你单位部署的，以及DeepSeek官网网页版的。
简单说，别人的那些大的云平台，不如你单位自己部署得好。不知道你单位用了什么特殊的资源或者配置，总之目前强过了上面全部提供API的云平台^_^

pekingmine 发表于 2025-2-19 13:03

dirnet 发表于 2025-2-19 12:47
本地部署的 DeepSeek-R1-Distill-Qwen-14B

结论对，过程错，“每堆取k个金币，其中k从1到100，因此最多要取100个金币，总重量为550 + 100 = 650克，远低于50,000克的限制。所以这个方法是
可行的。” 计算错误，导致以为没有超重。

fairness 发表于 2025-2-19 13:18

pekingmine 发表于 2025-2-19 09:15
麻将高手啊^_^

不知道有哪个版本的模型能答对？

答案对，过程错；让我想到了是不是搜到了，闻到过类似的题目；
上面称金币的问题，如果换成其他不同的东西，换一种说法，但重量不变；模型可以答对吗？

fairness 发表于 2025-2-19 13:22

redog 发表于 2025-2-19 12:33
我在本地上的1.5B或是7B上也问过，1.5B一开始的思路就有问题，它直接忽略了50kg的限制，指出了错误也不行 ...

我还想了想，这个问题只有这一种取法吗？
我只要每堆取得数量不一样，记录好第i堆取的数量为j，也是可行得；
为什么想不到呢？

pekingmine 发表于 2025-2-19 14:06

fairness 发表于 2025-2-19 13:22
我还想了想，这个问题只有这一种取法吗？
我只要每堆取得数量不一样，记录好第i堆取的数量为j，也是可 ...

每堆都取不同数量，就超重了。而刚好减1堆不取，就在重量范围内。
所以，实际只有少取1堆的这一种取法。
操作上，要么以0为基数，第一堆不取，0～99；要么以1为基数，最末堆不取，1～99。总之是减1堆不取就行。

pekingmine 发表于 2025-2-19 14:08

本帖最后由 pekingmine 于 2025-2-19 14:26 编辑

pekingmine 发表于 2025-2-19 12:18
补充，
腾讯云，R1满血，答案也是两次。回答其最新数据是2023年10月16日。
阿里云，R1满血，答案也是两次 ...

再补充一个意外，
阿里云，R1满血，调整上下文输出为32000之后，可以正确解答，但不是100%，试三次，第一次对、第二次错、第三次对。这算是到目前为止，惟一或可答对的API R1满血平台。综上，乐观估计，R1的更新迭代版本应该没有这个问题了。
对的两次：

Technik 发表于 2025-2-19 19:38

pekingmine 发表于 2025-2-19 12:58
你单位部署的可以答对，说明存在可用的解答能力。
然而，验证了提供API访问的上面各平台，全部翻车。小艺 ...

现在就算答对也不能说明它有正确解答这类问题的能力。我感觉更多的是根据上下文把它的答案写出来，而不是通过一个系统性的思路来解题解出来的。

之前其实就讨论过，大模型解这类问题是不是靠把答案背下来。

Technik 发表于 2025-2-19 19:46

在perplexity上简单比较了几个模型，gemini 2.0 flash逻辑感人

pekingmine 发表于 2025-2-20 19:03

Technik 发表于 2025-2-19 19:46
在perplexity上简单比较了几个模型，gemini 2.0 flash逻辑感人

1/2金币真是魔幻^_^

pekingmine 发表于 2025-2-20 19:05

Technik 发表于 2025-2-19 19:38
现在就算答对也不能说明它有正确解答这类问题的能力。我感觉更多的是根据上下文把它的答案写出来，而不是 ...

昨天试阿里的可以答对了，隔了一天，怎么也答不对了。你说的对，能解释这个现象。

页: 1 [2]

Chiphell - 分享与交流用户体验's Archiver