단일 GPU로도 GPT-3 등 대규모 언어 모델을 처리할 수 있는 'FlexGen' 등장

* 출처는 일본 GIGAZINE 기사. (일본어)

https://gigazine.net/news/20230222-flexgen/

* 파파고 번역

GPT-3와 같은 대규모 언어 모델을 처리하려면 높은 계산량과 메모리가 필요하기 때문에 일반적으로 여러 하이엔드 AI 가속기가 요구됩니다. 이 처리를 메모리 16GB NVIDIA 테슬라 T4와 메모리 24GB NVIDIA GeForce RTX 3090 등 메모리 용량이 제한된 GPU 단독으로도 실행하기 위한 생성 엔진 'FlexGen'이 공개됐습니다.

GitHub (영어) - FMInference/FlexGen: Running large language models like OPT-175B/GPT-3 on a single GPU. Focusing on high-throughput generation.

https://github.com/FMInference/FlexGen

FlexGen은 대규모 언어 모델의 추론 리소스 요건을 단일 GPU까지 낮춰 다양한 하드웨어에 유연하게 대응할 수 있도록 하는 것을 목적으로 만들어진 엔진입니다. 언어 모델인 OPT-175B를 실행할 경우 다른 오프로드 기반 시스템과 비교해 최대 100배 빨라지는 등의 특징을 갖추고 있습니다. [중략]

FlexGen에는 향후 Apple M1/M2 지원, Google Colaboratory 지원, 챗봇 애플리케이션 레이턴시 최적화 등이 담길 예정입니다.

그럼,

공유합니다.

저작자표시 비영리 변경금지 (새창열림)

'개발 이야기 > AI 인공지능 이야기' 카테고리의 다른 글

AI 툴 들을 검색해주는 사이트 (0)	2023.03.04
PDF업로드 GPT와 대화...사용해보세요 (0)	2023.03.04
chatGPT가 핫한 가운데 AI 검색엔진 You.com 사용기 (0)	2023.02.17
you.com 검색엔진 훑어보기 (0)	2023.02.12
좋아하는 곡과 비슷한 곡을 찾는 AI 프로젝트 Maroofy (0)	2023.02.05

오픈서포트의 주변잡기

단일 GPU로도 GPT-3 등 대규모 언어 모델을 처리할 수 있는 'FlexGen' 등장

'개발 이야기 > AI 인공지능 이야기' 카테고리의 다른 글

티스토리툴바

단일 GPU로도 GPT-3 등 대규모 언어 모델을 처리할 수 있는 'FlexGen' 등장

'개발 이야기 > AI 인공지능 이야기' 카테고리의 다른 글

'개발 이야기/AI 인공지능 이야기' Related Articles

티스토리툴바