大模型的模型壓縮與有效推理綜述
1  介紹本文對大型語言模型的壓縮和效率推理進行了綜述。大型語言模型基於 Transformer 架構,具有強大的性能,但也帶來了巨大的內存和計算成本。本文從算法角度對大型語言模型的壓縮和效率推理方法進行了分類,包括量化、剪枝、知識蒸餾、緊湊架構設計和動態網絡。大型語言模型有兩個顯著特點:(1)大多數壓縮算法需要在壓縮後對模型進行微調和甚至重新訓練,而大型模型的微調和訓練成本非常高。因此,許多算法 ⌘ Read more

⤋ Read More

Participate

Login to join in on this yarn.