找回密码
 加入我们
搜索
      
查看: 2580|回复: 43

[装机] windows下跑r语言内存不足,麻烦大佬们推荐一下装机

[复制链接]
发表于 2024-12-14 14:45 | 显示全部楼层 |阅读模式
本帖最后由 131CC6A 于 2024-12-15 04:22 编辑

组里给的课题,简单来说就是要处理一个100w+行数据的数据集,跑出可视化图和回归。
我之前的工作站是14700k+128g 在加入数据并且检查对齐坐标系准备跑图的时候会直接黑屏死机 我打开任务管理器显示已提交内存168g 内存是完全吃满的

考虑过更换语言来跑数据,但r语言的包都是已经写好的,能直接调用,换语言重新搞的时间可能更久,于是想配一台机器只用于跑这个数据集

目前的预算是1w左右,内存尽可能大,不需要显卡和硬盘,cpu和主板的通道最好是pcie4.0以上的,因为产出的数据集还需要放到另外一台机器上验证,数据量比较大,想请问大佬们有没有什么推荐的配置?万分感谢

补充一下关于回复很多人说的代码和语言问题:
1.r语言处理数据的时候是直接把数据全部预载进内存进行处理的,因此极其消耗内存

2.r语言只是一个统计语言,不是编程语言,优势是在可视化和易读性方面,但它对于大数据的优化很差,在课题前期也做过5-6w的小规模数据集,内存能吃到24g左右

3.考虑更换语言来处理这个问题,但r语言相关的包兼容性以及可以自动覆盖冲突等特性无法舍弃,另外我也在回复中反复提及了本人并不是code专业户,没有专业学习过代码,只是半吊子学过通识课开设的c,目前很大一部分都是靠copliot以及4o来帮助进行的,所以对我来说换语言以及学习数据库相关的时间成本会很高
发表于 2024-12-14 14:56 | 显示全部楼层
感觉要服务器的8通道16条内存了
发表于 2024-12-14 15:01 | 显示全部楼层
降频跑。。。。。黑屏说明你系统不稳定

到底是R太辣鸡还是代码写的太辣鸡?这么点数据就要这么多内存?
发表于 2024-12-14 15:07 来自手机 | 显示全部楼层
不会把所有数据都读在内存里吧,没有数据库会这么干
 楼主| 发表于 2024-12-14 15:18 | 显示全部楼层
赫敏 发表于 2024-12-14 15:01
降频跑。。。。。黑屏说明你系统不稳定

到底是R太辣鸡还是代码写的太辣鸡?这么点数据就要这么多内存? ...

没表达清楚,黑屏死机说的是r直接崩溃了,然后电脑大概会冻结个几分钟恢复正常

机器是戴尔的t3680工作站 也没法超频 严格按照intel的pl1 pl2设置的 内存是ddr5 4800 ecc

可能是语言问题也可能是我代码问题 我基本上都是找copliot和**写的 因为组里没人懂代码
100w+的行数据已经是清洗过两遍的了 原始数据集有300w+的行数据 那个组里没人能跑...
发表于 2024-12-14 15:24 | 显示全部楼层
要不,考虑租个云主机?
发表于 2024-12-14 15:28 来自手机 | 显示全部楼层
131CC6A 发表于 2024-12-14 15:18
没表达清楚,黑屏死机说的是r直接崩溃了,然后电脑大概会冻结个几分钟恢复正常

机器是戴尔的t3680工作站 ...

03年我都用sas处理过百万级的数据库,那时候的电脑性能估计连现在的电视盒子都比不上。。。
关键是优化程序逻辑啊
 楼主| 发表于 2024-12-14 15:29 | 显示全部楼层
eclipse126 发表于 2024-12-14 15:07
不会把所有数据都读在内存里吧,没有数据库会这么干

WechatIMG3564.jpg
到检查和对齐坐标系的时候内存已经这样了
WechatIMG3875.jpg

之前有去知乎问过,给我的建议是不要用r...
WechatIMG3988.jpg
 楼主| 发表于 2024-12-14 15:36 | 显示全部楼层
zmruc 发表于 2024-12-14 15:28
03年我都用sas处理过百万级的数据库,那时候的电脑性能估计连现在的电视盒子都比不上。。。
关键是优化程 ...

组里没几个人懂代码... 我也是问copliot以及-4写的数据集 自己能力实在有限 课题名称是真实统计数据分析 当时实在没想到会这么困难...
发表于 2024-12-14 16:29 | 显示全部楼层
为什么不用数据库呢?导进数据里随便搞啊
发表于 2024-12-14 16:41 来自手机 | 显示全部楼层
不如重新写一下代码?
发表于 2024-12-14 17:12 | 显示全部楼层
本帖最后由 声色茶马 于 2024-12-14 17:17 编辑

CHH的风气这是肿么了?
二楼不是已经指明了方向么?这时候不正是应该直接EYPC+8x128G内存起步么?大佬们拿出气魄来吧!
我推荐一个:B站搜索“瓜皮群主”。
发表于 2024-12-14 17:16 | 显示全部楼层
本帖最后由 momo77989724 于 2024-12-14 17:18 编辑

这不就是爆内存了嘛。。。ECC有没有单根64G到不知道
发表于 2024-12-14 17:17 来自手机 | 显示全部楼层
既然会问copilot写代码,那就也去问问copilot怎么降低当前算法的空间复杂度啊,你要不然这个搞法就是无底洞
发表于 2024-12-14 20:18 | 显示全部楼层
区区百万行数据在数据库都是随便操作的,现在ddr5最大单条也就48G,不上hedt最大就192G
发表于 2024-12-14 20:58 | 显示全部楼层
楼上无非两个思路 要不花钱 要不花时间优化算法
如果这个数据以后不会增长了 那个你个路子 收二代或者一代的epyc组ddr4的 1w堆到256g内存是可能的
要不自己花时间学习一下python和sql或
发表于 2024-12-14 21:07 | 显示全部楼层
另外 用一个几千行的数据测试下代码 有可能是内存溢出 而不是数据本身太大
发表于 2024-12-14 21:12 来自手机 | 显示全部楼层
区区百万数据要这么大内存?不懂r,但是总感觉有优化空间
发表于 2024-12-14 21:12 | 显示全部楼层
本帖最后由 williamqh 于 2024-12-14 21:15 编辑

r默认就是把所有数据读到内存里去,还是换python吧,一行一行搞。回归简单可以用stochastic gradient descent, 可视化你一百多万个数据点都放图上那还是要一起放内存,不过你要是一定要依赖r里的特定包,那只有花钱买内存了。
发表于 2024-12-14 22:07 | 显示全部楼层
100w行数据 128g内存还不行吗?
 楼主| 发表于 2024-12-15 00:19 来自手机 | 显示全部楼层
kingofgu 发表于 2024-12-14 21:07
另外 用一个几千行的数据测试下代码 有可能是内存溢出 而不是数据本身太大 ...

几千行的没有测试过 但是之前跑的都是这个大数据集的子集 一般在5-6w的行数据 是能正常跑出来图的
 楼主| 发表于 2024-12-15 00:21 来自手机 | 显示全部楼层
williamqh 发表于 2024-12-14 21:12
r默认就是把所有数据读到内存里去,还是换python吧,一行一行搞。回归简单可以用stochastic gradient desce ...

感谢大佬的答疑解惑了 我也在考虑要不要学下python和数据库
发表于 2024-12-15 01:10 | 显示全部楼层
如果硬推的话,建议EPYC系列,我朋友跑蛋白质模拟还是啥东西,之前买的7950X+128G说卡,我让他买了epyc一跑一个不吱声。不涉及很机密的话建议闲鱼租个机子跑一下试试,9654系列就行
发表于 2024-12-15 01:12 | 显示全部楼层
100w数据128g内存还不够,先看看code吧
发表于 2024-12-15 02:44 来自手机 | 显示全部楼层
100w行不是我说 excel都能跑
 楼主| 发表于 2024-12-15 04:13 来自手机 | 显示全部楼层
liprais 发表于 2024-12-15 01:12
100w数据128g内存还不够,先看看code吧

在贴吧也问了,包括上面有个大佬也回复了,说我的这种情况非常正常,r语言处理数据的时候是直接把数据全部预载进内存进行处理的,r语言只是一个统计语言,对于大数据的优化很差,极其消耗内存
 楼主| 发表于 2024-12-15 04:13 来自手机 | 显示全部楼层
ttt5t5t 发表于 2024-12-15 02:44
100w行不是我说 excel都能跑

不清楚excel能不能跑,r是没法跑的
发表于 2024-12-15 09:22 | 显示全部楼层
急用就买epyc,然后下来想办法换语言来改,如果可以就去找专门的程序员来代工,自己慢慢学能看懂和简单的维护就好(比如python)。
后期换语言了买的epyc又不是不能继续用,所以不用担心浪费。
唯一的问题是谁来保证256G就够用了。
按你的说法,5-6万的数据能吃满24G,你得多试几次不同的数据量下内存的增长,如果是线性的,你怕不是要上400G以上的内存,比如512G,不然万一买回来,还是会崩溃就笑了。
发表于 2024-12-15 10:21 | 显示全部楼层
虚拟内存的设置有影响吗?
发表于 2024-12-15 12:20 | 显示全部楼层
R语言好像不会自动管理内存,需要自己写一些内存管理的句子,不然内存占用会很夸张。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-1-3 09:16 , Processed in 0.015879 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表