PowerInfer开源项目GitHub地址公布,上海交大IPADS实验室推出的开源推理框架PowerInfer
上海交大IPADS实验室推出的开源推理框架PowerInfer,让大模型推理速度加快了11倍。而且不用量化,就用FP16精度,也能让40B模型在个人电脑上运行;如果加入量化,2080 Ti也能流畅运行70B模型。结合大模型的独特特征,通过CPU与GPU间的混合计算,PowerInfer能够在显存有限的个人电脑上实现快速推理。相比于llama.cpp,PowerInfer实现了高达11倍的加速,让4