텍스트를 통해 AI 이미지를 생성하는 솔루션으로 높은 인기를 얻고 있는 스테이블 디퓨전의 개발사인 스태빌리티 AI가 새로운 "스테이블 캐스케이드"를 발표했습니다.
기존 스테이블 디퓨전은 단일화된 대형 모델을 사용하는 구조인데 새로운 스테이블 케스케이드는 A-B-C 단계의 3단계 모델 파이프라인을 가지는 구조로 설계되었다고 합니다.
첫번째 C 단계에서 텍스트로 입력된 프롬프트를 기본 소스에 해당하는 24 X 24 Pixel 소스로 변환하고 이후 A 와 B 단계에서 전체적으로 고해상도 이미지로 디코딩하는 방식이라고 합니다.
이러한 방식은 텍스트 입력 후 기본 이미지 생성과 이미지 디코딩 단계를 분리하여 기본 이미지 생성 단계인 C단계에서 미세조정을 할 수 있도록 해준다고 합니다.
동일한 크기의 단일 스테이블 디퓨전 모델을 미세 조정하는 것과 비교하여 16배의 비용절감이 가능하다고 합니다.
https://stability.ai/news/introducing-stable-cascade |