Slicegpt : 切片GPT：通过删除行和列来压缩大型语言模型

Slicegpt

简介 :

切片GPT是一种新的后训练稀疏化方案，它通过用较小（密集）的矩阵替换每个权重矩阵来减少网络的嵌入维度。通过大量实验，我们展示了切片GPT可以在保持99%、99%和90%的零-shot任务性能的前提下，移除LLAMA2-70B、OPT 66B和Phi-2模型的高达25%的模型参数（包括嵌入）。我们的切片模型在较少的GPU上运行，并且在不进行任何额外代码优化的情况下运行速度更快：在24GB消费级GPU上，我们将LLAMA2-70B的推理总计算量减少到密集模型的64%；在40GB A100 GPU上，我们将其减少到66%。我们提供了一个新的见解，即变压器网络中的计算不变性，这使得切片GPT成为可能。我们希望它能激发并促进未来减少预训练模型的内存和计算需求的新途径。

需求人群 :

切片GPT适用于需要提高模型计算效率、减少内存占用的场景。

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 49.7K

使用场景

切片GPT可用于减少大型语言模型的内存消耗。

切片GPT可用于加速大型语言模型的推理过程。

切片GPT可用于提高预训练模型的计算效率。

产品特色

后训练稀疏化

模型参数压缩