生成Token速率能到多少?还有更经济的选择吗?
72B 模型在 4×H100 80G 上用 INT4 可以跑到 50–80 tok/s,而如果是在 4×5090 上跑 Qwen3-72B INT4,基本能跑起来,但速率只有大约 20–30 tok/s,属于“能玩但不流畅”;DS R1 体量太大,在这种配置下完全不现实。想要稳定跑 70B 级模型,至少需要 8×5090 或 8×4090Ti 这样的多机集群,而要体验 Qwen3-235B 或 DS R1 这样的全量超大模型,就必须依赖上百张 H100/GB200 的超大规模集群,消费级显卡没有解。
跑不了,至少也要8块48G 4090的,配1T内存,把模型放在内存里跑。
可以跑Qwen3-32B
4张H20都不行吧