过早客
  • 首页
  • 节点
  • 成员
  • 广告投放
  • 登录
  • 注册

用4块5090能支持全参数量化版本的Qwen3或DS R1模型吗

IT技术 • churchmice32 • 发表于 2 月前 • 最后回复来自 egear • 2 月前

生成Token速率能到多少?还有更经济的选择吗?

加入收藏 新浪微博 分享到微信 ❤赞 1347 次点击 0 人赞 0 人收藏

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

共收到4条回复
crystalyang46 2 月前 湖北 #1 赞 0

72B 模型在 4×H100 80G 上用 INT4 可以跑到 50–80 tok/s,而如果是在 4×5090 上跑 Qwen3-72B INT4,基本能跑起来,但速率只有大约 20–30 tok/s,属于“能玩但不流畅”;DS R1 体量太大,在这种配置下完全不现实。想要稳定跑 70B 级模型,至少需要 8×5090 或 8×4090Ti 这样的多机集群,而要体验 Qwen3-235B 或 DS R1 这样的全量超大模型,就必须依赖上百张 H100/GB200 的超大规模集群,消费级显卡没有解。

xiaohao77 2 月前 湖北 #2 赞 0

跑不了,至少也要8块48G 4090的,配1T内存,把模型放在内存里跑。

xieshaohu 2 月前 湖北 #3 赞 0

可以跑Qwen3-32B

egear 2 月前 湖北 #4 赞 0

4张H20都不行吧

请绑定手机号后,再发言,点击此处
Guozaoke.com—源自武汉的高端交流分享社区
相关主题
iOS 过早客没有数据,大佬们求教!
GPT-5
寻有K12教育行业软件开发经验的同学合作
你们都用哪些AI工具,求分享下~
过早客flutter版来了
亲测,鸿蒙开发奖励到手了
感觉gemini已经是一骑绝尘
分享一个拥有很多好看壁纸的插件
作为后端开发工程师,你们有中途转向机器学习/深度学习的吗?
写了个过早客的暗色插件,个人感觉很好用嘿嘿

过早客微信公众号:guozaoke • 过早客新浪微博:@过早客 • 广告投放合作微信:fullygroup50 鄂ICP备2021016276号-2 • 鄂公网安备42018502001446号