找回密码
 加入我们
搜索
      
楼主: enolc

[显卡] 探讨和求证deepseek背后的算力真相

[复制链接]
 楼主| 发表于 2025-1-30 23:44 | 显示全部楼层
能山寨出来并不断迭代改进就是本事。而且,美国1800-1930年代也是山寨帝国,也是靠模仿仿制山寨起家,这也是科技发展的必经之路。DeepSeek 最大的贡献是敢于向权威挑战,向垄断者发起质疑的声音!DeepSeek现在至少有十个算法研发和工程创新。
发表于 2025-1-30 23:47 来自手机 | 显示全部楼层
inone2 发表于 2025-1-30 19:04
愿闻其详! 是哪点令你觉得Open AI 底层逻辑有问题???

我只记得老师是这样教我分办某人是读经典数学还是 ...

你一定相信科学的尽头是神学吧,毕竟牛顿晚年都信教了
 楼主| 发表于 2025-1-30 23:50 | 显示全部楼层
inone2 发表于 2025-1-30 18:42
不要试图叫醒装睡的人,你永远叫不醒他们的。

以下是本站站友Leciel发的帖子:
https://www.chiphell.com/thread-2668980-1-1.html


deepseek为了极致效率,绕过了Cuda,使用PTX,在机器(metal)层面实现了十倍以上的提速。大大降低了训练的费用。
https://www.tomshardware.com/tec ... programming-instead  
 楼主| 发表于 2025-1-30 23:53 | 显示全部楼层
神月妍妍 发表于 2025-1-30 23:47
你一定相信科学的尽头是神学吧,毕竟牛顿晚年都信教了

从不认为上帝在仍骰子的爱因斯坦也差不多.............
 楼主| 发表于 2025-1-31 01:52 | 显示全部楼层
以下是引用互联网“金湾居士”的博客:

春节期间被Deepseek霸屏了, 每一块液晶屏上都是国产AI的劲爆新闻,媒体挣流量的本质体现的淋漓尽致,可能对皮衣黄早有不满的华尔街更是趁火打劫,NVDA跳水16%,对AI股大有要开类似本世纪初互联网泡沫崩塌的第一枪的架势。国内更是吹上了天, 将其上升到国运级别,国人终于可以在AI竞赛中扬眉吐气了一把。

     于是尝试读了一下deepseek的论文,并没有基础架构的创新(仍基于transformer),但在微架构上的尝试和创新的确值得赞誉(MLA,不用SFT等),在没有算力支撑的情况下,看得出来他们花了很多力气尝试达到四两拨千斤的效果,结果非常reasonable。

    deepseek的训练是否真的只花了5百万美金是个问号, 本人想起若干年前在某初创公司花费三个多月做个了个DSP仿真器,因此对该架构了如指掌,后续公司新买了个EDA计工具,由于对要做什么非常清楚,用那个工具一周完成了一个和自己从零做的同样仿真器, 于是成了该EDA公司的成功案例模版,在外面到处吹其客户一周完成DSP仿真器设计,显然没有前面那三个月,何来那一周?有报道称deepseek的母公司几年前就聚集了万张显卡做machine learning(用于量化炒股),没有那些积累,估计也不会有什么五百万美金训练处frontier模型的神话。

  deepseek用到的trick,openai或anthropic他们是不懂怎么做吗?我认为也未必,只是如果如Altman所言, Scaling Law还远未结束,他们认为这是触手可得的成果和路径,所谓low hanging fruit,又没什么芯片管制,于是资源都朝着堆算力方向投去。今天看到Mark Chen的推,言下之意,deepseek的部分算法和openai是不谋而合,说明openai内部也许已经知道训练的成本可以降下来,但作为AI标杆初创,降本显然不是他们需要吹嘘的。 至于 deepseek的模型是否有缺陷呢?其实都不知道,还是让子弹飞一会儿最佳。
 楼主| 发表于 2025-1-31 04:10 | 显示全部楼层
inone2 发表于 2025-1-30 09:11
现在重点不是用哪张卡,外国人问的主要是这两个问题!

第一,刚推出时有人问过DeepSeek是哪个大模型时, ...

1月29日,微软纳德拉在电话会议上指出DeepSeek“有一些真的创新”,AI成本下降是趋势:“缩放定律(Scaling Law)在预训练和推理时间计算中不断积累。多年来,我们已经看到了AI训练和推理方面的效率显著提高。在推理方面,我们通常看到每一代硬件的性价比提高2倍以上,每一代模型的性价比提高10倍以上。”
发表于 2025-1-31 08:40 | 显示全部楼层
神月妍妍 发表于 2025-1-30 23:47
你一定相信科学的尽头是神学吧,毕竟牛顿晚年都信教了

你的说法,令我对夏虫不可语冰有了更深的了解。
发表于 2025-1-31 08:47 来自手机 | 显示全部楼层
inone2 发表于 2025-1-30 09:09
我有2个问题想请教你:

第一,刚推出时有人问过DeepSeek是哪个大模型时,它为何说自己是Chat**!?

你的问题油管上有答案:训练ds大模型的时候所使用的语料有些部分是由openai生成的,所以会出现这样的bug。就像曾出现过用中文问谷歌ai你是谁,它说自己是文心一言。
发表于 2025-1-31 08:53 | 显示全部楼层
天涯海龟 发表于 2025-1-31 08:47
你的问题油管上有答案:训练ds大模型的时候所使用的语料有些部分是由openai生成的,所以会出现这样的bug ...

新问题又出现了! 外国开始禁用DS,原因是DeepSeek存在安全隐忧 用户数据可一览无遗!

发表于 2025-1-31 09:27 | 显示全部楼层
inone2 发表于 2025-1-31 08:53
新问题又出现了! 外国开始禁用DS,原因是DeepSeek存在安全隐忧 用户数据可一览无遗!

...

跪久了站不起来?国外说什么你就信什么?
发表于 2025-1-31 10:12 | 显示全部楼层
inone2 发表于 2025-1-30 18:41
你以前也是这样支持姜萍的吗?

你以前也是这样支持汉芯CPU的吗?

废材就知道看到失败的例子。
因为自己很失败
发表于 2025-1-31 10:18 | 显示全部楼层
inone2 发表于 2025-1-30 19:04
愿闻其详! 是哪点令你觉得Open AI 底层逻辑有问题???

我只记得老师是这样教我分办某人是读经典数学还是 ...


一看就是文科生,不懂技术,跑这扯替换。
人家老美AMD和微软,英伟达都在部署跑deepseek。
倒是一堆恨国党在这死劲黑
1213.jpg
还有哦。英伟达官网上了deepseek 的链接
122313.png
发表于 2025-1-31 10:31 | 显示全部楼层
从经济学角度分析一下DeepSeek对AI算力需求的影响https://weibo.com/2453509265/Pc1b3qIVx
发表于 2025-1-31 10:48 | 显示全部楼层
男中音钢琴家 发表于 2025-1-28 13:06
所以我说啊,这编者还不如DeepSeek自己来。

聊回正题,已经有团队现在正在复现DeepSeek,是真是假过几天 ...

训练过程也能复现吗?
发表于 2025-1-31 10:57 | 显示全部楼层
Kyle-Zhu 发表于 2025-1-29 08:29
知道同样地研究为什么始终成为不了主流,当美帝的国家战略是白痴吗,软突破最容易实现可复用且有上限。时间 ...

正好用deepseek的思考过程泛化的回答下你的问题。先拆分一下。

同样地研究为什么始终成为不了主流

“同样地研究”这个表述可能有些模糊,我猜测你可能是在问某个领域或某种方法为什么始终无法成为主流。这种现象的成因通常是
多方面的,以下是一些常见的原因和思考方向:

### 1. **技术或理论本身的局限性**
   - 如果某项研究的核心假设、方法或结论存在根本性的缺陷,或者在实践中难以验证或应用,那么它自然很难被广泛接受。
   - 比如某些理论可能过于复杂,无法解释现实中的现象,或者与已有的主流理论冲突太大。

### 2. **市场需求不足**
   - 如果某项研究的结果无法解决实际问题,或者其应用场景非常有限,那么它可能难以成为主流。例如,某种研究可能只适用于
特定领域,而市场规模不足以支撑其推广。
   - 市场对某些技术或方法的需求不足,也可能导致它们无法成为主流。

### 3. **缺乏有效的传播和推广**
   - 即使某项研究成果优秀,但如果没有得到足够的宣传、推广或者教育支持,它可能很难被广泛认知。
   - 学术界内部的壁垒、行业间的割裂,或者研究者自身对传播的忽视,都可能导致研究成果无法成为主流。

### 4. **竞争过于激烈**
   - 如果某个领域已经有成熟的主流方法或技术占据了市场和资源,新的研究要突破这些现有的屏障可能非常困难。
   - 主流方法往往已经建立了完整的生态系统(如标准、工具链、培训体系等),新兴的研究要想取代它们需要巨大的努力。

### 5. **政策和法规的影响**
   - 政府的政策、法规或行业标准可能会对某项研究的推广产生重大影响。例如,某些技术可能因为安全、伦理等问题被限制使用

   - 在某些领域,政府的资助和资源往往集中在少数主流方向上,其他方向的研究可能得不到足够的支持。

### 6. **社会认知和文化因素**
   - 某些研究可能与主流价值观或文化认知相悖,导致公众或决策者对其持怀疑态度。
   - 社会舆论、媒体的报道方式等也可能影响一项研究的接受度。

### 7. **缺乏长期的支持和发展**
   - 如果某项研究在初期阶段未能获得持续的资金和资源支持,或者研究团队无法坚持下去,它可能很快被其他更热门的研究领域
取代。
   - 研究的连续性和稳定性对成为主流非常重要,短期的努力往往不足以改变大趋势。

### 8. **技术迭代和替代**
   - 在快速变化的技术领域,某些方法或理论可能会因为新技术的出现而逐渐被淘汰。如果一项研究未能跟上技术发展的步伐,它
可能很快失去竞争力。
   - 另外,某些研究可能被证明是过渡性的,最终被更高效、更实用的方法取代。

### 9. **缺乏跨学科的整合**
   - 如果某项研究过于单一化或局限在某个领域内,而没有与其他学科或技术相结合,它可能会因为孤立无援而难以成为主流。
   - 跨学科的整合能够扩大研究成果的应用场景和影响力。

### 10. **运气和偶然性**
   - 在某些情况下,一项研究是否能成为主流可能与运气有关。例如,如果某个领域的突破性进展发生在另一个领域,可能会导致
原本有可能成为主流的研究被边缘化。
   - 历史上的许多技术或理论都是在特定的背景下偶然兴起的,而不是因为它们本身是最好的选择。

### 如何改变这种状况?
如果你希望某项研究能够成为主流,可以尝试以下方法:
1. **验证和改进核心假设**:确保研究的基础是坚实且可验证的。
2. **寻找应用场景**:将研究成果与实际需求结合起来,扩大其适用范围。
3. **加强传播和教育**:通过学术会议、媒体报道等方式让更多人了解你的研究成果。
4. **建立生态系统**:推动相关工具、标准和培训体系的建设,降低用户门槛。
5. **寻求政策支持**:争取政府或行业的认可和支持。
6. **与主流研究合作**:尝试将你的方法与其他主流理论或技术结合起来。

总之,成为主流需要时间和努力,但只要你的研究成果足够优秀,并且能够解决实际问题,最终还是有可能被广泛接受的。

美帝的ai战略:

</think>

### 美国的 AI 战略和主流方向
美国一直是全球人工智能(AI)技术发展的领导者之一。近年来,美国政府、企业和学术界都在积极推动人工智能的发展,并通过政
策、投资和技术研发来保持其在全球人工智能领域的领先地位。

以下是美国当前在人工智能领域的主要战略方向及其相关政策:

---

### 1. **推动 AI 技术的前沿研究**
   - **目标**:确保美国在人工智能领域的技术领先性,特别是在基础理论和颠覆性技术方面。
   - **政策支持**:
     - **ARPA-I(人工智能研究计划署)**:这是由美国政府资助的一个关键项目,旨在加速人工智能领域的突破性研究。
ARPA-I 专注于推动 AI 的长期目标,如通用人工智能(AGI)和人机协作等。
     - **NIST(国家标准与技术研究院)**:制定人工智能相关的标准和技术规范,确保 AI 技术的可靠性和可解释性。

---

### 2. **提升 AI 在国家安全中的应用**
   - **目标**:将人工智能作为国家安全的核心工具,用于军事、情报和网络安全等领域。
   - **政策支持**:
     - **DARPA(国防高级研究计划局)**:在军事领域推动 AI 技术的研发,例如自主武器系统、无人机协同作战等。
     - **NSA(国家安全局)**:利用人工智能技术提升网络监控和信息安全能力。

---

### 3. **促进 AI 在经济领域的广泛应用**
   - **目标**:通过人工智能技术推动经济增长,提高生产效率,并创造新的商业机会。
   - **政策支持**:
     - **国家 AI 初创企业计划**:为AI初创企业提供资金和技术支持,鼓励其将研究成果商业化。
     - **税收激励**:美国政府通过减税等政策,鼓励企业和个人加大对人工智能技术的投资。

---

### 4. **加强 AI 人才培养**
   - **目标**:培养和吸引全球顶尖的 AI 人才,确保美国在全球 AI 人才竞争中的优势。
   - **政策支持**:
     - **NSF(国家科学基金会)**:资助高校和研究机构的人工智能相关项目,推动 AI 学科的发展。
     - ** visas 政策**:通过吸引国际 AI 人才的签证政策,留住全球顶尖科学家和技术专家。

---

### 5. **推动 AI 在医疗、教育等社会领域的应用**
   - **目标**:利用人工智能技术解决社会问题,提升公共服务质量。
   - **政策支持**:
     - **HITECH 法案**:鼓励医疗机构采用人工智能技术,提高诊断和治疗的精准性。
     - **AI 教育计划**:推动 AI 技术在教育领域的应用,例如智能教学系统和个性化学习工具。

---

### 6. **应对 AI 的伦理和安全挑战**
   - **目标**:确保人工智能技术的安全可控,并制定相应的伦理规范。
   - **政策支持**:
     - **AI 伦理委员会**:成立专门的伦理审查机构,研究人工智能技术可能带来的社会和伦理问题。
     - **自动驾驶汽车法规**:制定自动驾驶汽车的相关法律法规,确保其安全性和可接受性。

---

### 7. **加强国际合作与竞争**
   - **目标**:在全球范围内推动人工智能技术的合作与交流,同时应对来自其他国家的竞争。
   - **政策支持**:
     - **AI 联盟能源部**:与其他国家合作,建立国际 AI 研究和应用的联合项目。
     - **出口管制**:限制某些关键 AI 技术的出口,以保护美国的技术优势。

---

### 8. **推动 AI 在气候和能源领域的应用**
   - **目标**:利用人工智能技术应对气候变化和提高能源效率。
   - **政策支持**:
     - **DOE(能源部)AI 计划**:资助高校和企业在可再生能源、碳捕捉等领域的人工智能研究。
     - **绿色 AI 技术**:开发低能耗的 AI 算法,减少人工智能技术对环境的影响。

---

### 9. **促进 AI 的标准化和开源生态**
   - **目标**:推动人工智能技术的标准制定,建立开放的生态系统。
   - **政策支持**:
     - **国家标准与技术研究院(NIST)**:主导人工智能领域的标准制定工作。
     - **开源项目支持**:资助开源 AI 项目的开发和推广,例如 TensorFlow 和 PyTorch 等。

---

### 10. **应对全球 AI 竞争**
   - **目标**:在全球范围内维护美国在人工智能领域的领先地位。
   - **政策支持**:
     - **AI 2030 战略**:制定长期规划,确保美国在人工智能领域的持续领先。
     - **量子计算计划**:推动量子计算与人工智能的结合,进一步提升 AI 技术的性能。

---

### 美国 AI 政策的特点
1. **跨部门协作**:美国政府通过多个机构(如 DOD、NSA、NIST、DOE 等)共同推动人工智能的发展。
2. **注重基础研究**:通过 ARPA-I 和 DARPA 等机构,支持前沿技术的研发。
3. **重视伦理和安全**:在 AI 的发展过程中,注重其潜在的伦理和社会影响。
4. **国际竞争意识强**:将人工智能作为国家战略的一部分,与其他国家展开竞争。

---

### 结论
美国的 AI 战略是一个全面而多层次的规划,涵盖了从基础研究到实际应用的各个方面。通过政策支持、资金投入和国际合作,美国
旨在保持其在全球人工智能领域的领先地位,并利用这项技术推动经济发展和社会进步。未来,随着技术的进步和全球竞争的加剧,
美国的 AI 战略将继续调整和完善,以应对新的挑战和机遇。

进一步:

</think>

是的,**硬件算力(Hardware Compute Power)**确实是当前人工智能发展的一个核心驱动力,尤其是在美国。然而,这并不是美国 AI 发展的全部方向,而是其整体战略中的一部分。

以下是对这一问题的具体分析:

---

### 1. **硬件算力的重要性**
   - **AI 模型训练的需求**:现代人工智能模型(尤其是深度学习和大语言模型)需要巨大的计算资源。例如,训练一个像 **-4 这样的大型语言模型可能需要数万个 GPU 并行工作数月时间。
   - **美国的优势**:美国在硬件算力方面具有显著优势,主要体现在以下几个方面:
     1. **高性能计算(HPC)技术**:美国拥有全球领先的超级计算机和计算架构设计能力,例如 IBM 的 Watson 和 Cray 超级计算机。
     2. **GPU 创新**:英伟达(NVIDIA)是全球最大的 GPU 生产商,其 GPU 一直是深度学习训练的核心硬件。
     3. **AI 加速器**:美国的科技公司正在开发专门用于 AI 计算的加速器芯片,例如 Google 的 TPU(张量处理单元)和英特尔的 Nervana 芯片。

   - **政策支持**:美国政府通过《CHIPS 法案》等政策,大力支持半导体行业的发展,进一步推动硬件算力的提升。

---

### 2. **硬件算力并非唯一方向**
虽然硬件算力对 AI 的发展至关重要,但它并不是美国 AI 发展的唯一方向。实际上,AI 的进步来源于多个方面的协同作用:

#### a. 算法创新
   - **模型架构设计**:例如,Transformer 架构的提出(如BERT、** 等)极大地推动了自然语言处理的发展。
   - **优化算法**:包括自动微分技术(如 PyTorch 的 autograd)、优化器(如 Adam)等,使得训练效率大幅提升。

#### b. 数据质量与多样性
   - **高质量数据**:美国在医疗、图像、语音等领域拥有丰富的高质量标注数据集,这为 AI 模型的训练提供了重要支持。
   - **联邦学习和隐私计算**:通过联邦学习(Federated Learning)等技术,在保护用户隐私的前提下利用分布式数据进行模型训练。

#### c. 软件生态
   - **开源框架**:如 PyTorch、TensorFlow 等开源深度学习框架,极大地降低了 AI 的开发门槛,并推动了社区协作。
   - **工具链优化**:包括模型压缩技术(Model Pruning)、量化技术(Quantization)等,使得 AI 模型可以在资源有限的设备上运行。

#### d. 伦理与可持续性
   - **AI 治理**:美国正在加强 AI 的伦理规范研究,确保技术的发展符合社会价值观。
   - **绿色计算**:减少 AI 训练对能源的需求,降低碳排放。

---

### 3. **硬件算力的局限性**
尽管硬件算力是推动 AI 发展的重要因素,但它也存在一些局限性:
   - **成本高昂**:训练大型模型需要投入巨大的资源和资金。
   - **能耗问题**:高性能计算会导致能源消耗激增,带来环境压力。
   - **瓶颈显现**:随着模型规模的扩大,单纯依赖硬件算力的增长可能会遇到物理限制(如散热、芯片制造工艺等)。

---

### 4. **美国 AI 发展的核心逻辑**
总体来看,美国在 AI 领域的发展策略是“**软硬结合,以硬带软**”:
   - 硬件算力的提升为 AI 的发展提供了基础支持。
   - 同时,算法创新、数据质量和软件生态的进步推动了硬件资源的高效利用。

---

### 5. **未来趋势**
未来的 AI 发展可能会更加注重“**效率而非纯粹的算力堆砌**”,例如:
   - 更高效的模型架构(如轻量化模型)。
   - 更智能的计算资源分配策略(如动态资源调度)。
   - 跨领域协同(如硬件、算法、数据的联合优化)。

---

### 结论
虽然硬件算力是美国 AI 发展的一个重要方向,但它并不是唯一的主流发展方向。AI 的进步依赖于硬件、软件、数据和算法的共同作用。未来,随着技术的发展,AI 将更加注重效率、可持续性和跨学科协同。

时间:

### **5. 训练时间的估算**
对于通用大模型,可以参考以下经验公式:

- **计算资源需求**:通常需要数千到数万个 GPU 显存和计算能力。
- **时间估算**:
  - 1B 参数模型:几天到几周。
  - 10B 参数模型:几周到几个月。
  - 100B 参数模型:几个月到一年以上。

---

### **6. 影响训练时间的因素**
   - **数据量**:更多的数据意味着更长的训练时间,但可能带来更好的性能。
   - **优化技术**:使用高效的优化算法(如 Adam、Lion 等)和学习率调度器可以加速收敛。
   - **模型架构**:更深或更复杂的架构可能会延长训练时间。

---

### **总结**
通用大语言模型的训练时间取决于模型规模、计算资源和优化策略。以下是一个大致的时间范围:
   - 小型模型(100M 参数):几天到几周。
   - 中型模型(1B-10B 参数):几周到几个月。
   - 大型模型(10B+ 参数):数月甚至更长。

如果需要加速训练,可以考虑优化硬件资源、采用分布式训练技术或改进模型架构和训练策略。


顺着你的思路说,是100B的模型么,三个月后来看看有什么东西吧。反正我们大多数都不是做ai的,有什么好用的就看看,拿来用。
发表于 2025-1-31 11:03 | 显示全部楼层
本帖最后由 mkkkno1 于 2025-1-31 11:47 编辑
jihuan 发表于 2025-1-29 09:35
我感觉deepseek宣传还是有很大水份,从我个人使用上来,文本生成和4o还有不小差距,deepseek生成的东西第一 ...


有没有一种可能,需要点提问的技巧。幻方本就是做量化交易的龙头好吧。
发表于 2025-1-31 11:22 | 显示全部楼层
inone2 发表于 2025-1-30 09:13
现在重点不是用哪张卡,外国人觉得它的解答是基于OpenAI的数据而来!

DeepSeek在12月推出v3,已经够惊艳,超出预期。一个月后,推出R1,直接掀翻了AI的世界。

当然,肯定有人要急着为DeepSeek找爹,“蒸馏说”就是这样产生的。

如果理解没有错误,“蒸馏说”是指DeepSeek以Chat **为参照模型,首先用大量的输入数据激励Chat**,得到输出,然后把这作为数据集,用于训练DeepSeek。

这节约了海量搜取和标注原始数据的难题,也大大简化了语言和其他非数值信息的数据化工作。

这样的抄近路是有可能的。在工程上,模型降阶常常就是这么做的,但也是有条件的。

工程上的这些都是小模型,输入的性质和数值范围都很明确,不管是“打格子”还是随机产生输入数据,都容易。而且有足够的数值方法可以保证“数据密度”,不会出现过分的疏漏或者重叠。

但通用大模型没法这么做。首先是不可能确定Chat**的输入范围。或者说,那就是整个“已知人类公域知识”,有本事把这样的输入集搞齐全了,已经把Chat **的data scraping做完了。data scraping不知道怎么翻译,这是把公域数据全部梳理一遍,吸收进来,包括公开出版物和网络数据。

也就是说,DeepSeek可以把自己的大模型“蒸馏”成小模型,但没法把别人的大模型“蒸馏”成自己的模型。

第二点是推理过程,这是DeepSeek有别于几乎所有主流大模型的地方,肯定是Chat**没有的地方。“蒸馏”只能是降低分辨率的复现,原来的模型没有的数据,“蒸馏”是变不出来的。做习题时直接抄答案,但老师要求写中间步骤,就抓瞎了。一样的道理。这是DeepSeek没法抄袭Chat**的另一个理由。

第三点:DeepSeek在一些方面超过Chat**,这就更不可能从“蒸馏”中得到了。针对性加强可以解释,但如何用较少的参数“打败”多得多的参数又是“蒸馏”没法解释的。

最基本的一点还是第一点:DeepSeek不可能获得Chat**的原始输入集,没法“蒸馏”.


你可以下载不同参数规模的deekseek,这些模型是大模型蒸馏的小模型.
发表于 2025-1-31 11:30 | 显示全部楼层
wuxi001 发表于 2025-1-30 09:15
套壳CHAT ,期待后续。

把套壳的成果开源了,哈哈哈哈哈
发表于 2025-1-31 11:36 | 显示全部楼层
Neo_Granzon 发表于 2025-1-31 10:48
训练过程也能复现吗?

https://github.com/huggingface/open-r1

自己看看这个项目呗
发表于 2025-1-31 11:42 | 显示全部楼层
wuxi001 发表于 2025-1-30 09:15
套壳CHAT ,期待后续。

NVIDIA:671 亿参数的 DeepSeek-R1 模型现已作为 NVIDIA NIM 微服务在 build.nvidia.com 上预览,您可以放心地进行实验并构建自己的专用服务。
发表于 2025-1-31 11:59 | 显示全部楼层
ds的最重要贡献是完全开源并且把训练好的成果随便你下载,无论它是偷的还是自己部分创新
落到现实中就是,大量拿着它的成果就能直接可以本地部署的ai落地
这是对全人类的贡献,即使它是偷了openai又如何?
发表于 2025-1-31 14:12 来自手机 | 显示全部楼层
一个开源的,还牛逼的ai不支持,难道支持闭源的openai?真正值得骄傲的东西
发表于 2025-1-31 15:09 | 显示全部楼层
xjr12000 发表于 2025-1-31 11:59
ds的最重要贡献是完全开源并且把训练好的成果随便你下载,无论它是偷的还是自己部分创新
落到现实中就是, ...

DS的利好就是苹果和meta
算力需求的大幅降低,让苹果这种局端设备有较强算力的看到了以后局端模型的未来。
毕竟苹果A系列和M系列都有一些算力,又是最强的生态。
meta更不用说,开源的最大受益者,因为meta的大模型也是开源的。
发表于 2025-1-31 18:31 | 显示全部楼层
yxxkz8 发表于 2025-1-29 13:25
500万可以达到这样的效果,那国外的上千万多几十倍算力,会更强的吧。

不一定,网络上的信息看似无限量的,但是真正有用的信息极少。

盲目扩大规模面临着无信息可以喂养的窘境,如果拿海量垃圾信息喂养,你不怕喂出个傻子?
发表于 2025-1-31 18:44 来自手机 | 显示全部楼层
mkkkno1 发表于 2025-1-31 11:03
有没有一种可能,需要点提问的技巧。幻方本就是做量化交易的龙头好吧。 ...

chat** plus开了一年了 技巧的熟练程度应该还可以
发表于 2025-1-31 19:21 来自手机 | 显示全部楼层
enolc 发表于 2025-1-29 03:20
没错!懂王上台,这几天抓了多少垃圾非移,最可怕的是这些被抓的只是冰山一角。美国国内问题一大堆,非揪 ...

大国竞争下 这都很正常 你看两边都差不多 都是上纲上线。
 楼主| 发表于 2025-2-1 02:43 | 显示全部楼层
本帖最后由 enolc 于 2025-2-1 02:44 编辑

英伟达网站显示,DeepSeek-R1模型已作为NVIDIA NIM微服务预览版在英伟达面向开发者的网站上发布。英伟达网站介绍称,DeepSeek-R1模型是最先进、高效的大型语言模型,在推理、数学和编码方面表现出色。

实际上,除了英伟达(NVIDIA),微软(Microsoft),还有 亚马逊(Amazon)AWS,超微半导体(MRD), 思爱普(SAP)也在评估潜在的合作中。

真的假不了,假的真不了,唉,有些人就是跪得太久了,站不起来了,凡事讲事实,证据,客观和辩证就好

以下评论来源于网络
客观、冷静地看,DeepSeek当然是重要的局部突破,但整体上中国AI领域尤其AI大模型领域与美国还是有着一定差距的。

首先,DeepSeek-R1代表大模型的“深度思考”能力,是通用大模型的一部分能力,因此其水平接近美国市场的头部同类模型,且是更早(4个月前)发布的模型,是一种局部突破,而非整体突破。

其次,尽管DeepSeek通用大模型V3也广受好评,但其受好评的前提是其具有极致的性价比,“性能接近”美国头部产品,且价格更低(是对方的百分之几)。显然,这不代表V3真的与Chat**在技术上没有差距。

再次,中国AI行业与美国行业在算法、算力和数据上的差距依然没有实质性改变。

算法方面,美国是AI大模型的原创研发国,技术路线和发展方向目前均主要由美国引领。算力方面,美国目前具有绝对优势,且随着美国对英伟达GPU芯片的出口限制日益严格,中国受限会愈加严重,而国内自主研发虽有重大进展,但尚需追赶和突破时间。数据方面,中文数据存在数量少且“互联网孤岛”加剧之势。

最后,从市场表现看中/美差距依然较大。与美国相比,我国AI企业数量较多,但核心产业规模明显偏小。并且,我国AI企业估值与美国AI企业估值有拉大之势,OpenAI市场估值超过1万亿元人民币,马斯克主导的xAI估值已达400亿美元,而我国“六小虎”估值普遍为100亿至数百亿人民币,互联网大厂则普遍没有因为发展AI大模型得到较多的AI赋分。

尽管DeepSeek爆火不能完全代表**中/美AI技术水平接近,但确实进一步缩短了中/美AI的技术差距。至于缩短了多少,或许还需要市场后续发展来给出答案。
发表于 2025-2-1 17:05 | 显示全部楼层
各大AI巨头,纷纷表示要和DS合作!
发表于 2025-2-1 17:39 | 显示全部楼层
本帖最后由 StanleyTHANKS 于 2025-2-1 17:40 编辑

连数据蒸馏都不明白也要说套壳死活要争个高低,某些人真是让人见识了物种多样性
那我举个以某人的学识能够理解的例子,把这件事当作是你觉得一个差生抄了一个好生的考试答案。
差生抄到答案拿出来能得分是正常,但是他能答得上来为什么,他能告诉你答案得到的过程(你理解为开源)
而你认为的这个“好生”它反而不敢公布其求解过程,问题出在哪里

你还认为他是抄的?还是说你对比了两个模型间的参数?
抱歉,忘了,CloseAI是闭源,你看不到也对比不了,你只配花钱去用它求解
假的真不了,真的假不了,敢开源就是告诉你我并非套壳,这也是防止被泼脏水最有效的手段之一。
发表于 2025-2-2 02:09 | 显示全部楼层
StanleyTHANKS 发表于 2025-2-1 17:39
连数据蒸馏都不明白也要说套壳死活要争个高低,某些人真是让人见识了物种多样性
那我举个以某人的学识能够 ...

没错,敢开源就是DS最大的底气!
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-22 22:30 , Processed in 0.016271 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表