생성형 AI

요약
- 챗봇과 이미지 생성기부터 신약 개발과 사기 탐지에 이르기까지 생성형 AI(GenAI)는 기술을 재편하고 소 매, 금융, 의료 등 다양한 분야에서 새로운 애플리케이션을 주도하고 있습니다.
- GenAI는 트랜스포머, GAN, VAE, 확산 시스템과 같은 모델을 사용하여 대규모 데이터세트에서 패턴을 학습하고 텍스트, 이미지, 음악, 코드, 심지어 합성 데이터까지 생성합니다.
- GenAI는 생산성 향상, 새로운 수익원, 혁신을 약속하는 동시에 편향, 잘못된 정보, 저작권, 책임감 있는 거버넌스의 필요성에 대한 우려를 낳고 있습니다.
생성형 AI란?
생성형 AI(줄여서 GenAI)란 스스로 새로운 콘텐츠를 생성할 수 있는 모든 유형의 인공 지능을 뜻합니다. 생성형 AI 콘텐츠에는 텍스트, 이미지, 비디오, 음악, 번역, 요약 및 코드가 포함됩니다. 또한 주관식 질문에 답하고, 거의 임의적인 지침을 실행하고, 채팅에 참여하는 등의 특정 작업을 완료할 수도 있습니다.
ChatGPT, DALL-E 등의 서비스를 통해 일반 대중에서 GenAI의 의미가 소개되면서 기술의 인기도 크게 높아졌습니다.
생성형 AI의 작동 원리
GenAI 모델은 딥러닝을 사용하여 기존 데이터세트 내의 패턴을 식별하고 분석합니다. 이 모델은 인간의 두뇌 행동과 마찬가지로 트랜스포머 및 기타 딥러닝 아키텍처를 사용하여 데이터세트를 처리하고 '학습'합니다. 이러한 AI 모델은 새롭고 독창적인 콘텐츠를 만들기 위해 엄청난 양의 데이터를 트레이닝니다.
텍스트, 이미지, 일련의 음표 등을 입력하여 AI 모델을 트레이닝시킨 후 해당 AI 모델에 "프롬프트"를 제공할 수 있습니다. 그러면 알고리즘이 이를 바탕으로 새로운 콘텐츠를 생성합니다. 예를 들어 이미지를 사용하여 텍스트 캡션을 만들거나 텍스트 설명에서 이미지를 생성하는 등 다양한 미디어에서 작업할 수 도 있습니다.
생성형 AI 모델의 일반적인 유형은 텍스트를 통해 트레이닝된 대규모 언어 모델(LLM)입니다. 이 모델은 순차적으로 사용되는 단어를 인식하는 방법을 학습합니다. 그런 다음 어떤 단어가 다음 순서로 나올 가능성이 가장 높은지 예측하여 문장을 구성할 수 있으므로 자연스럽게 들리는 결과물을 얻을 수 있습니다.

생성형 AI 모델의 예
현재 사용되고 있는 생성형 AI 모델에는 여러 유형이 있습니다. 방법과 사용 사례는 다르지만 모두 다양한 알고리즘을 결합하여 콘텐츠를 처리하고 생성합니다.
GAN(Generative Adversarial Network, 생성형 적대적 신경망)
GAN 모델에는 동시에 트레이닝되는 두 개의 신경망, 즉 생성기(Generator)와 판별기(Discriminator)가 포함되어 있는데, 이 두 신경망은 게임 형태의 시나리오에서 서로 경쟁합니다.
생성기는 프롬프트를 기반으로 한 이미지와 같은 새로운 출력을 생성합니다. 그리고 판별기는 이 새로운 콘텐츠의 진위를 평가하고 생성기에 피드백을 제공하여 출력을 개선하는 데 도움을 줍니다. 생성기는 항상 판별기가 생성된 콘텐츠를 '진짜'로 분류하도록 속이고, 판별기는 항상 진위를 더 잘 구별하려고 노력합니다.
GAN 모델의 잘 알려진 예로 Midjourney(텍스트 이미지 변환 GenAI 도구)가 있습니다. 그러나 GAN은 이미지 생성에만 국한되지 않고 텍스트와 비디오 콘텐츠도 생성합니다.
GAN 생성기와 판별기는 계속 경쟁하면서 고품질의 결과를 빠르게 생성합니다. 그러나 과적합(overfitting), 모드 붕괴(mode collapse), 기울기 소실(diminished gradient)과 같은 문제를 방지하려면 두 신경망의 균형을 유지하는 것이 중요합니다.
변분 오토인코더(VAE)
오토인코더 모델도 두 가지 신경망을 사용하여 데이터를 해석하고 생성합니다. 이 모델에서는 이 두 신경망을 인코더와 디코더라고 하며 인코더 신경망은 주요 특성을 포착하는 단순 형식 또는 잠재 형식으로 데이터를 압축하도록 트레이닝되었습니다. 반면, 디코더 모델은 잠재 데이터로부터 콘텐츠를 재구성하도록 트레이닝됩니다.
VAE는 연속적 잠재 공간을 사용하여 트레이닝 데이터 포인트 간의 로컬 변형을 구현합니다. VAE 모델은 약간 수정된 압축 정보를 디코딩하여 유사하지만 궁극적으로는 독창적인 콘텐츠를 출력합니다.
이 모델은 주로 이미지 생성 및 이상 탐지에 사용되지만 텍스트와 오디오를 생성하기도 합니다. VAE는 이미지와 같은 결과물을 빠르게 생성하지만 다른 모델에 비해 세부 정보가 부족할 수 있습니다.
자기회귀
자기회귀 생성형 AI 모델은 이전에 생성된 요소의 컨텍스트를 고려하여 새로운 샘플을 생성합니다. 또한 각 데이터 포인트의 조건부 확률 분포를 모델링하고 시퀀스의 다음 요소를 예측하여 새 데이터를 생성합니다.
이 모델은 한 번에 한 요소씩 순차적으로 데이터를 생성하므로 복잡한 시퀀스를 생성할 수 있습니다. 자기회귀 AI는 일반적으로 텍스트 생성(예: ChatGPT), 언어 모델링, 음악 작곡에 사용됩니다.
확산 모델
노이즈 제거 확산 확률 모델(De-noising Diffusion Probabilistic Model, DDPM)이라고도 하는 확산 모델은 정방향 확산과 역방향 확산을 포함하는 2단계 프로세스로 트레이닝됩니다.
정방향 확산 중에는 트레이닝 데이터에 무작위 가우시안 노이즈가 점진적으로 추가되어 효과적으로 데이터를 파괴합니다. 그런 다음 AI는 역방향 확산을 통해 샘플을 재구성하는 방법을 학습합니다. 트레이닝 완료된 확산 모델은 완전한 무작위 노이즈로부터 새로운 데이터를 생성할 수 있습니다.
트랜스포머
트랜스포머(Transformer)는 순차적 입력 데이터 간의 장기적 관계를 처리하는 데 도움이 되는 특정 유형의 머신 러닝을 사용합니다. 그러려면 더 큰 데이터세트를 통해 모델을 트레이닝해야 합니다.
'어텐션(attention)'이라고 알려진 이 개념을 바탕으로 트랜스포머는 입력의 어느 부분이 다른 부분에 영향을 미치는지, 즉 컨텍스트를 이해할 수 있습니다. 따라서 이 모델은 컨텍스트에 대한 이해가 필요한 자연어 처리(NLP)와 관련된 텍스트 생성 작업에 가장 적합합니다. 잘 알려진 생성형 AI 프로그램 대부분이 트랜스포머 기반 모델에 속합니다.
트랜스포머는 매우 강력한 텍스트 생성기임이 입증되었습니다. 트레이닝 입력으로 텍스트만 필요하고 수십 억에 달하는 페이지를 사용할 수 있기 때문입니다. NLP 외에도 트랜스포머 AI 모델은 코드, 단백질, 화학물질, DNA 내의 연결 관계를 추적하고 식별하는 데 사용됩니다.
생성형 AI 모델 사용
이러한 각 모델 유형은 특정 사용 사례에 적합하며, 그 예는 다음과 같습니다:
- GANs: 고해상도 이미지, 동영상 합성, 데이터 증강
- VAEs: 이상 감지 및 빠른 이미지 생성
- 자기회귀 모델: 텍스트 생성, 언어 모델링, 순차 데이터 작업
- 확산 모델: 고품질 이미지 합성 및 노이즈 제거 애플리케이션
- 트랜스포머: NLP, 코드 생성 및 멀티모달 AI
이러한 모델 중 어떤 것을 사용할지 평가할 때 조직은 각 사용 사례를 통해 달성하고자 하는 것에 대한 명확한 사용 사례와 목표를 정의해야 합니다. 상황에 가장 적합한 결과를 도출할 모델을 선택하려면 이러한 목표를 기준으로 각 모델의 장단점을 평가해야 합니다.
사용 사례가 결정되면 조직에서 생성형 AI 모델의 효능을 평가하고 검증하는 데 사용할 수 있는 몇 가지 기법이 있습니다.
- LEU: 이 모델은 생성된 텍스트와 참조 텍스트 간의 중복을 측정합니다. 원래 기계 번역을 위해 설계된 이 모델은 출력의 정밀도에 중점을 둡니다.
- ROUGE: 요약을 위해 설계된 이 측정항목은 n-gram 중복의 재현율을 평가하고 모델 출력에 참조 콘텐츠가 얼마나 포함되었는지 평가합니다.
- METEOR, ChrF: 단어 수준의 의미 또는 문자 수준의 패턴을 사용하여 생성된 텍스트와 참조 텍스트를 비교함으로써 텍스트 품질을 평가합니다.
- Perplexity: 이 접근 방식은 모델이 다음 토큰에 얼마나 '놀라는지'를 측정합니다(낮을수록 좋음). Perplexity가 낮을수록 예측 능력이 더 좋다는 것을 의미하지만, 실제 작업에서 항상 생성 품질과 상관관계가 있는 것은 아닙니다.
- Fréchet Inception Distance(FID) 는 특징 분포를 사용하여 생성된 이미지가 실제 이미지와 얼마나 가까운지를 측정합니다.
- Inception Score(IS) 는 예측된 라벨의 신뢰도와 다양성을 기반으로 이미지 품질을 측정합니다.
- Databricks 지원: MLflow를 사용하면 평가 파이프라인의 일부로 이러한 점수를 로깅하고 비교할 수 있습니다.
생성형 AI에서 딥러닝의 역할
딥러닝으로 전환하면서 AI 모델이 더욱 정교해졌고, 자연어 같이 점점 더 복잡해지는 데이터를 모델링할 수 있게 되었습니다. 생성형 AI 모델 대부분은 내부적으로 딥러닝을 사용하게 됩니다.
딥러닝이라는 이름은 이러한 모델에서 사용되는 수많은 처리 레이어에서 비롯되었습니다. 상호 연결된 노드의 첫 번째 레이어에서 트레이닝 데이터가 제공됩니다. 이 레이어의 출력이 다음 레이어의 입력으로 사용됩니다. 이전 레이어에서 얻은 지식을 기반으로 각 레이어가 구축되므로 복잡성과 추상화가 증가하고, 데이터세트의 세부 정보를 바탕으로 대규모 패턴을 이해할 수 있습니다.
기존 머신 러닝에서는 프로그래머가 특성 추출을 수행해야 하지만 딥러닝 프로그램은 지도학습을 줄이고 내부적으로 유용한 데이터 표현을 구축할 수 있습니다.
또한 AI 모델은 딥러닝 기술을 사용해 자연어 이해, 이미지 인식 등 복잡하고 추상적인 개념을 처리할 수 있습니다.
데이터 증강, 전이 학습, 미세 조정 등 AI 성능을 개선하는 방법에는 여 러 가지가 있습니다. 데이터 증강은 생성 모델을 사용하여 데이터 트레이닝을 위한 새로운 합성 데이터 포인트를 생성합니다. 그런 다음 이 모델을 기존 데이터에 추가하여 데이터세트의 크기와 다양성을 늘리고, 결과적으로 모델의 정확도를 높입니다.
전이 학습에서는 사전 트레이닝된 모델을 두 번째 관련 작업에 사용합니다. 이 모델은 기존 모델의 출력을 다른 학습 문제의 입력으로 활용함으로써 첫 번째 트레이닝 인스턴스에서 얻은 지식을 적용할 수 있습니다. 전이 학습의 예로 자동차를 식별하도록 트레이닝된 모델을 사용하여 다른 차량을 식별하는 모델을 트레이닝하는 것이 있습니다. 전이 학습이 유용한 이유는 새로운 모델을 트레이닝하는 데 필요한 데이터의 양을 줄여주기 때문입니다.
마지막으로 미세 조정은 AI 모델을 보다 구체적인 데이터로 트레이닝하여 맞춤 구성하는 기술입니다. 이 모델을 사용해 사전 트레이닝된 모델을 특정 도메인이나 작업에 사용할 수 있도록 세부 조정할 수 있습니다. 미세 조정을 위해서는 최종 작업을 대표하는 고품질 데이터세트가 필요합니다.
생성형 AI의 실제 사용 사례
생성형 AI 기술은 텍스트 및 이미지 생성부터 소프트웨어 개발에 이르기까지 실제 사례를 광범위하게 보유하고 있습니다. 그 중 가장 일반적인 사용 사례 몇 가지에 대해 알아보겠습니다
이미지 생성
DALL-E와 같은 도구를 사용하면 시각적 또는 텍스트 형태의 프롬프트를 입력하여 새로운 이미지(예: 사진, 이미지, 비디오)를 생성할 수 있습니다. 멀티모달 모델은 텍스트 안내에 따라 이미지를 생성할 수 있으므로, 사용자는 원하는 만큼 모호하거나 구체적인 표현을 사용할 수 있습니다.
예를 들어 '동물'이나 '무지개'를 기반으로 한 그림을 요청하고 그 결과로 어떤 그림이 생성되는지 확인할 수 있습니다. 또는 '선글라스를 낀 새끼 코뿔소가 보라색 커튼이 쳐진 창문을 통해 무지개를 보고 있다'와 같이 자세한 안내를 제공할 수도 있습니다.
또 다른 옵션은 스타일 전이(style transfer)로, 한 이미지의 콘텐츠와 다른 이미지의 시각적 스타일을 결합하는 것입니다. 예를 들어 콘텐츠 이미지(코뿔소 사진)와 스타일 참조 이미지(피카소 그림)를 입력하면 AI가 이 둘을 혼합하여 피카소 스타일의 새로운 코뿔소 이미지를 생성합니다.
텍스트 생성
잘 알려진 텍스트 기반 GenAI 사용 사례 중 하나인 챗봇은 이제 다른 많은 작업에도 적용할 수 있습니다. 예를 들어 GrammarlyGo와 같은 도구는 비즈니스 양식의 이메일을 작성하고 답변을 보내는 데 도움이 될 수 있습니다.
기술 제품을 광고하는 브로셔를 제작한다고 가정해 보겠습니다. 인간의 경우 기능과 사양을 읽고 자세히 메모한 다음 초안을 작성하는 데 시간을 들입니다. 생성형 AI 프로그램은 입력된 정보를 바탕으로 몇 초 만에 이 모든 작업을 수행하여 바로 사용할 수 있는 콘텐츠를 빠르게 생성합니다. 텍스트 생성은 영화를 더빙하거나 비디오 콘텐츠에 자막을 제공하거나 콘텐츠를 다양한 언어로 번역할 때도 유용합니다.
음악 작곡
GenAI는 특정 장르의 음악을 작곡하거나 특정 작곡가의 스타일을 모방할 수 있습니다. 이미지 생성기와 마찬가지로 '


