上海交大IPADS实验室推出的开源推理框架PowerInfer,让大模型推理速度加快了11倍。

而且不用量化,就用FP16精度,也能让40B模型在个人电脑上运行;

如果加入量化,2080 Ti也能流畅运行70B模型。

结合大模型的独特特征,通过CPU与GPU间的混合计算,PowerInfer能够在显存有限的个人电脑上实现快速推理。

相比于llama.cpp,PowerInfer实现了高达11倍的加速,让40B模型也能在个人电脑上一秒能输出十个token。

我们最熟悉的ChatGPT,一方面有时会因为访问量过大而宕机,另一方面也存在数据安全问题。


有兴趣的可以关注下项目开源GitHub地址:https://github.com/SJTU-IPADS/PowerInfer


点赞(0)

评论列表 共有 0 条评论

暂无评论
发表
评论
返回
顶部