上海交大IPADS实验室推出的开源推理框架PowerInfer,让大模型推理速度加快了11倍。
而且不用量化,就用FP16精度,也能让40B模型在个人电脑上运行;
如果加入量化,2080 Ti也能流畅运行70B模型。
结合大模型的独特特征,通过CPU与GPU间的混合计算,PowerInfer能够在显存有限的个人电脑上实现快速推理。
相比于llama.cpp,PowerInfer实现了高达11倍的加速,让40B模型也能在个人电脑上一秒能输出十个token。
我们最熟悉的ChatGPT,一方面有时会因为访问量过大而宕机,另一方面也存在数据安全问题。
有兴趣的可以关注下项目开源GitHub地址:https://github.com/SJTU-IPADS/PowerInfer
发表评论 取消回复