본문 바로가기

개발 이야기/AI 인공지능 이야기

단일 GPU로도 GPT-3 등 대규모 언어 모델을 처리할 수 있는 'FlexGen' 등장

728x90

 

* 출처는 일본 GIGAZINE 기사. (일본어)

https://gigazine.net/news/20230222-flexgen/

 


 

* 파파고 번역

 

GPT-3와 같은 대규모 언어 모델을 처리하려면 높은 계산량과 메모리가 필요하기 때문에 일반적으로 여러 하이엔드 AI 가속기가 요구됩니다. 이 처리를 메모리 16GB NVIDIA 테슬라 T4와 메모리 24GB NVIDIA GeForce RTX 3090 등 메모리 용량이 제한된 GPU 단독으로도 실행하기 위한 생성 엔진 'FlexGen'이 공개됐습니다.

 

   GitHub (영어) - FMInference/FlexGen: Running large language models like OPT-175B/GPT-3 on a single GPU. Focusing on high-throughput generation.

https://github.com/FMInference/FlexGen

 

FlexGen은 대규모 언어 모델의 추론 리소스 요건을 단일 GPU까지 낮춰 다양한 하드웨어에 유연하게 대응할 수 있도록 하는 것을 목적으로 만들어진 엔진입니다. 언어 모델인 OPT-175B를 실행할 경우 다른 오프로드 기반 시스템과 비교해 최대 100배 빨라지는 등의 특징을 갖추고 있습니다. [중략]

 

FlexGen에는 향후 Apple M1/M2 지원, Google Colaboratory 지원, 챗봇 애플리케이션 레이턴시 최적화 등이 담길 예정입니다.

 

 

 

그럼,

    공유합니다.