AQLM dan PV-Tuning Kurangi Ukuran Model 8x dengan Mempertahankan Kualitas 95%

Tim Riset Yandex berkolaborasi dengan Institute of Science and ology Austria, NeuralMagic, dan KAUST dalam pengembangan dua metode kompresi inovatif untuk large language model (LLM) yaitu Additive Quantization of Language Models (AQLM) dan PV-Tuning.

Kedua metode ini digunakan untuk mengurangi ukuran model hingga 8 kali lipat sambil menjaga kualitas respons hingga 95%. Tujuannya adalah untuk mengoptimalkan sumber daya dan meningkatkan efisiensi dalam menjalankan model bahasa yang besar. Artikel penelitian mengenai pendekatan ini telah ditampilkan di International Conference on Machine Learning (ICML) di Wina, Austria.

AQLM menggunakan pendekatan kuantisasi aditif untuk melakukan kompresi LLM. Metode ini mampu mempertahankan akurasi model di bawah kompresi ekstrem, sehingga memungkinkan penggunaan LLM pada perangkat sehari-hari seperti komputer di rumah dan smartphone dengan penggunaan memori yang lebih efisien.

PV-Tuning digunakan untuk mengatasi kesalahan yang mungkin muncul selama proses kompresi model. Apabila digabungkan, AQLM dan PV-Tuning memberikan hasil optimal sehingga model dapat memberikan respons berkualitas tinggi bahkan pada sumber daya penyimpanan yang terbatas.

Evaluasi metode ini dilakukan dengan menggunakan model-model sumber terbuka seperti Llama 2, Llama 3, dan Mistral. Hasilnya menunjukkan bahwa metode ini mampu mempertahankan kualitas jawaban hingga 95% meskipun model-model tersebut dikompresi sebanyak 8 kali.

Metode ini dapat memberikan penghematan sumber daya yang substansial bagi perusahaan yang menggunakan model bahasa berpemilik ataupun LLM sumber terbuka. Model Llama 2 yang memiliki 13 miliar parameter, setelah dikompresi, dapat berjalan hanya dengan 1 GPU, mengurangi biaya perangkat keras hingga 8 kali lipat.

AQLM dan PV-Tuning memungkinkan penggunaan model pada perangkat dengan sumber daya penyimpanan yang terbatas seperti smartphone dan speaker canggih. Model yang dikompresi menggunakan metode ini juga dapat beroperasi hingga 4 kali lebih cepat karena memerlukan lebih sedikit komputasi.

Para pengembang dan peneliti dapat mengakses AQLM dan PV-Tuning melalui GitHub untuk mempelajari pembuatan LLM yang dikompresi dan mengunduh model-model sumber terbuka yang telah menggunakan metode tersebut.

Source link

AQLM dan PV-Tuning Kurangi Ukuran Model 8x dengan Mempertahankan Kualitas 95%

Pilihan Berita

Berita Terbaru

Berita Populer