* 출처는 일본 GIGAZINE 기사. (일본어)
https://gigazine.net/news/20230222-flexgen/
* 파파고 번역
GPT-3와 같은 대규모 언어 모델을 처리하려면 높은 계산량과 메모리가 필요하기 때문에 일반적으로 여러 하이엔드 AI 가속기가 요구됩니다. 이 처리를 메모리 16GB NVIDIA 테슬라 T4와 메모리 24GB NVIDIA GeForce RTX 3090 등 메모리 용량이 제한된 GPU 단독으로도 실행하기 위한 생성 엔진 'FlexGen'이 공개됐습니다.
GitHub (영어) - FMInference/FlexGen: Running large language models like OPT-175B/GPT-3 on a single GPU. Focusing on high-throughput generation.
https://github.com/FMInference/FlexGen
FlexGen은 대규모 언어 모델의 추론 리소스 요건을 단일 GPU까지 낮춰 다양한 하드웨어에 유연하게 대응할 수 있도록 하는 것을 목적으로 만들어진 엔진입니다. 언어 모델인 OPT-175B를 실행할 경우 다른 오프로드 기반 시스템과 비교해 최대 100배 빨라지는 등의 특징을 갖추고 있습니다. [중략]
FlexGen에는 향후 Apple M1/M2 지원, Google Colaboratory 지원, 챗봇 애플리케이션 레이턴시 최적화 등이 담길 예정입니다.
그럼,
공유합니다.
'개발 이야기 > AI 인공지능 이야기' 카테고리의 다른 글
AI 툴 들을 검색해주는 사이트 (0) | 2023.03.04 |
---|---|
PDF업로드 GPT와 대화...사용해보세요 (0) | 2023.03.04 |
chatGPT가 핫한 가운데 AI 검색엔진 You.com 사용기 (0) | 2023.02.17 |
you.com 검색엔진 훑어보기 (0) | 2023.02.12 |
좋아하는 곡과 비슷한 곡을 찾는 AI 프로젝트 Maroofy (0) | 2023.02.05 |