Dalle-mini는 무엇이며 어떻게 작동합니까?

Dalle Minineun Mueos Imyeo Eotteohge Jagdonghabnikka



Dalle-mini는 사용자가 입력한 텍스트로부터 고품질의 이미지를 생성할 수 있는 딥러닝 모델입니다. OpenAI가 2021년 1월에 출시한 DALL-E 모델을 기반으로 합니다. DALL-E는 “ 풀린 언어와 잠재된 표현 ”는 텍스트와 이미지를 공통 잠재 공간으로 인코딩한 다음 다시 두 양식으로 디코딩할 수 있는 변환기 기반 신경망입니다.

이 문서에서는 다음 내용을 설명합니다.







달레미니란?

그녀에게 미니를 줘 오픈 소스 연구 집단인 EleutherAI가 만든 DALL-E의 더 작고 빠른 버전입니다. DALL-E의 120억개에 비해 Dalle-mini는 60억개의 매개변수만 사용하며 단일 GPU에서 실행할 수 있습니다. Dalle-mini는 또한 텍스트 입력에 대해 다른 토크나이저와 어휘를 사용하므로 다른 언어 및 도메인과 더 잘 호환됩니다.




메모 : 사용자는 Dalle-mini를 사용하여 다음과 같이 무료로 이미지를 생성할 수 있습니다. 링크 .



Dalle-mini의 작동 원리는 무엇입니까?

Dalle-mini의 기본 아이디어는 신경망인 변환기의 힘입니다. 텍스트나 이미지와 같은 순차적 데이터에서 장거리 종속성과 복잡한 패턴을 학습할 수 있습니다.





트랜스포머는 인코더와 디코더의 두 가지 주요 부분으로 구성됩니다. 첫 번째 부분은 입력(텍스트 설명)을 받아 히든 벡터로 변경합니다. 그런 다음 디코더는 이를 가져와 입력과 관련된 출력(이미지)을 생성합니다.

Dalle-mini와 DALL-E의 차이점은 무엇입니까?

Dalle-mini와 DALL-E는 텍스트와 이미지 모두에 공유 인코더-디코더 아키텍처를 사용합니다. 그들은 동일한 네트워크를 사용하여 두 양식을 모두 인코딩하고 디코딩할 수 있습니다. 이를 통해 텍스트와 이미지 사이의 의미론적 관계를 포착하는 공통 잠재 공간을 학습할 수 있습니다. 그런 다음 텍스트에서 이미지를 생성하거나 그 반대의 경우와 같은 교차 모달 생성을 수행할 수 있습니다.



Dalle-mini는 어떻게 작동합니까?

텍스트 설명에서 이미지를 생성하기 위해 Dalle-mini는 먼저 바이트 쌍 인코딩(BPE) 알고리즘을 사용하여 텍스트를 토큰화합니다. 이 알고리즘은 텍스트를 빈도 및 동시 발생에 따라 하위 단어 단위로 분할합니다.


Dalle-mini의 내부 작업을 자세히 살펴보겠습니다.

Dalle-mini의 내부 작업

'라는 단어를 가정해보자. 놀이 '로 나눌 수 있습니다. 플라 ' 그리고 ' '. 그런 다음 토큰은 8192 토큰의 어휘를 사용하여 숫자 ID에 매핑됩니다. ID는 인코더에 입력되어 256 x 64 크기의 잠재적 표현을 생성합니다.


그런 다음 디코더는 잠재 표현을 가져와 256 x 256 픽셀 크기의 이미지를 생성합니다. 디코더는 자동 회귀 프로세스를 사용합니다. 즉, 이전 픽셀과 잠재 표현을 조건으로 각 픽셀을 하나씩 생성합니다.

Dalle-mini를 사용하여 텍스트 설명에서 이미지를 생성하는 방법은 무엇입니까?

Dalle-mini를 사용하여 이미지에서 텍스트 설명을 생성하려면 프롬프트 창에 텍스트를 입력하십시오. 예를 들어 ' 무작위 꽃의 그림 ' 프롬프트에서 ' 달리다 ” 버튼:


출력은 Dalle-mini가 입력 텍스트에 따라 관련 이미지를 생성했음을 보여줍니다.

결론

Dalle-mini는 교차 모드 생성을 위한 변압기의 잠재력을 보여주는 놀라운 모델입니다. 자연어 설명에서 사실적이고 다양한 이미지를 만들 수 있을 뿐만 아니라 이미지에서 일관되고 관련성 있는 텍스트를 만들 수 있습니다. 또한 하나의 이미지나 텍스트에 여러 객체나 속성을 결합하는 것과 같은 복잡한 구성도 처리할 수 있습니다. 이 기사는 Dalle-mini와 그 작동에 대해 자세히 설명했습니다.