Slicegpt
切片GPT适用于需要提高模型计算效率、减少内存占用的场景。
总访问量: 29,742,941
占比最多地区: US(17.94%)
336
简介
切片GPT是一种新的后训练稀疏化方案,它通过用较小(密集)的矩阵替换每个权重矩阵来减少网络的嵌入维度。通过大量实验,我们展示了切片GPT可以在保持99%、99%和90%的零-shot任务性能的前提下,移除LLAMA2-70B、OPT 66B和Phi-2模型的高达25%的模型参数(包括嵌入)。我们的切片模型在较少的GPU上运行,并且在不进行任何额外代码优化的情况下运行速度更快:在24GB消费级GPU上,我们将LLAMA2-70B的推理总计算量减少到密集模型的64%;在40GB A100 GPU上,我们将其减少到66%。我们提供了一个新的见解,即变压器网络中的计算不变性,这使得切片GPT成为可能。我们希望它能激发并促进未来减少预训练模型的内存和计算需求的新途径。
截图
产品特色
后训练稀疏化
模型参数压缩
提高模型计算效率
流量来源
直接访问48.39%外链引荐35.85%邮件0.03%
自然搜索12.76%社交媒体2.96%展示广告0.02%
最新流量情况
月访问量
25296.55k
平均访问时长
285.77
每次访问页数
5.83
跳出率
43.31%
总流量趋势图
地理流量分布情况
美国
17.94%
中国
17.08%
印度
8.40%
俄罗斯
4.58%
日本
3.42%
地理流量分布全球图