모두의AI - AI 커뮤니티

모두의AI

로그인

모두의 담벼락

실시간

커뮤니티의 다양한 이야기와 최신 소식을 실시간으로 만나보세요

게시글

실시간

업데이트

•2025년 6월 20일•조회 0

개인 GPU로 FLUX.1-dev 파인튜닝? QLoRA로 VRAM 10GB 돌파!

이전 게시물인 'Diffusers의 양자화 백엔드 탐색'에서 우리는 FLUX.1-dev와 같은 확산 모델을 축소하여 성능 저하 없이 추론 접근성을 크게 높이는 다양한 양자화 기술을 살펴보았습니다. 비츠앤바이트(bitsandbytes)와 토르차오(torchao) 등이 이미지 생성 시 메모리 사용량을 어떻게 줄이는지 확인했습니다.추론을 수행하는 것도 중요하지만, 이러한 모델을 진정으로 우리만의 것으로 만들려면 미세 조정(Fine-tuning)도 가능해야 합니다. 따라서 이번 게시물에서는 단일 GPU에서 약 10GB 미만의 VRAM만으로 이러한 모델을 효율적으로 미세 조정하는 방법을 다룹니다. 이 글은 디퓨저스(diffusers) 라이브러리를 사용하여 FLUX.1-dev를 QLoRA로 미세 조정하는 과정을 안내할 것입니다. 우리는 NVIDIA RTX 4090에서의 결과를 선보일 예정이며, 토르차오(torchao)를 이용한 FP8 학습이 호환 가능한 하드웨어에서 속도를 더욱 최적화할 수 있음을 강조할 것입니다.목차데이터셋FLUX 아키텍처디퓨저스로 FLUX.1-dev QLoRA 미세 조정하기주요 최적화 기술설정 및 결과FP8 토르차오(torchao)를 이용한 미세 조정학습된 LoRA 어댑터로 추론하기옵션 1: LoRA 어댑터 로드하기옵션 2: LoRA를 기본 모델에 병합하기구글 코랩(Google Colab)에서 실행하기결론데이터셋우리는 작은 데이터셋을 사용하여 알폰스 무하(Alphonse Mucha)의 예술 스타일을 학습시키기 위해 black-forest-labs/FLUX.1-dev 모델을 미세 조정하고자 합니다.FLUX 아키텍처이 모델은 세 가지 주요 구성 요소로 이루어져 있습니다:텍스트 인코더 (CLIP 및 T5)트랜스포머 (메인 모델 - Flux Transformer)변분 오토인코더 (VAE)우리의 QLoRA 접근 방식에서는 트랜스포머 구성 요소만 미세 조정하는 데 집중합니다. 텍스트 인코더와 VAE는 학습 내내 고정된 상태를 유지합니다.디퓨저스로 FLUX.1-dev QLoRA 미세 조정하기우리는 FLUX 모델의 DreamBooth 스타일 LoRA 미세 조정을 위해 설계된 디퓨저스 학습 스크립트(https://github.com/huggingface/diffusers/blob/main/examples/research_projects/flux_lora_quantization/train_dreambooth_lora_flux_miniature.py에서 약간 수정)를 사용했습니다. 또한 이 블로그 게시물(및 구글 코랩에서 사용된)의 결과를 재현하기 위한 단축 버전은 여기에서 확인할 수 있습니다. QLoRA 및 메모리 효율성에 중요한 부분을 살펴보겠습니다.주요 최적화 기술LoRA (Low-Rank Adaptation) 심층 분석: LoRA는 낮은 랭크 행렬로 가중치 업데이트를 추적하여 모델 학습을 더욱 효율적으로 만듭니다. 전체 가중치 행렬 W를 업데이트하는 대신, LoRA는 두 개의 더 작은 행렬 A와 B를 학습합니다. 모델 가중치에 대한 업데이트는 ΔW=BA이며, 여기서 A는 Rr×k에 속하고 B는 Rd×r에 속합니다. r(랭크라고 불림)은 원래 차원보다 훨씬 작으므로 업데이트할 매개변수가 적습니다. 마지막으로, α는 LoRA 활성화에 대한 스케일링 요소입니다. 이것은 LoRA가 업데이트에 미치는 영향에 영향을 미치며, 종종 r과 같거나 그 배수로 설정됩니다. 이는 사전 학습된 모델과 LoRA 어댑터의 영향을 균형 있게 조절하는 데 도움이 됩니다. 개념에 대한 일반적인 소개는 이전 블로그 게시물인 '효율적인 Stable Diffusion 미세 조정을 위한 LoRA 사용'을 참조하십시오.QLoRA: 효율성의 핵심 동력: QLoRA는 사전 학습된 기본 모델을 양자화된 형식(일반적으로 bitsandbytes를 통한 4비트)으로 먼저 로드하여 LoRA를 향상시킵니다. 이는 기본 모델의 메모리 사용량을 크게 줄입니다. 그런 다음 이 양자화된 기본 모델 위에 LoRA 어댑터(일반적으로 FP16/BF16)를 학습시킵니다. 이는 기본 모델을 유지하는 데 필요한 VRAM을 극적으로 낮춥니다.예를 들어, HiDream 4비트 양자화를 사용한 DreamBooth 학습 스크립트에서 bitsandbytes는 LoRA 미세 조정의 최대 메모리 사용량을 ~60GB에서 ~37GB로 줄여 품질 저하가 거의 없습니다. 이와 동일한 원리를 여기에서 소비자 등급 하드웨어에서 FLUX.1을 미세 조정하는 데 적용합니다.8비트 옵티마이저 (AdamW):표준 AdamW 옵티마이저는 각 매개변수에 대해 32비트(FP32)로 첫 번째 및 두 번째 모멘트 추정치를 유지하며, 이는 많은 메모리를 소비합니다. 8비트 AdamW는 블록 단위 양자화를 사용하여 옵티마이저 상태를 8비트 정밀도로 저장하면서 학습 안정성을 유지합니다. 이 기술은 표준 FP32 AdamW에 비해 옵티마이저 메모리 사용량을 약 75% 줄일 수 있습니다. 스크립트에서 이를 활성화하는 것은 간단합니다:if args.use_8bit_adam: optimizer_class = bnb.optim.AdamW8bitelse: optimizer_class = torch.optim.AdamWoptimizer = optimizer_class( params_to_optimize, betas=(args.adam_beta1, args.adam_beta2), weight_decay=args.adam_weight_decay, eps=args.adam_epsilon,)그래디언트 체크포인팅:전방향(forward pass) 중에 중간 활성화는 일반적으로 역방향(backward pass) 그래디언트 계산을 위해 저장됩니다. 그래디언트 체크포인팅은 일부 체크포인트 활성화만 저장하고 역전파 중에 다른 활성화를 재계산함으로써 계산과 메모리를 교환합니다.if args.gradient_checkpointing: transformer.enable_gradient_checkpointing()레이턴트 캐싱:이 최적화 기술은 학습 시작 전에 모든 학습 이미지를 VAE 인코더를 통해 사전 처리합니다. 그 결과로 얻은 잠재 표현을 메모리에 저장합니다. 학습 중에는 이미지를 즉석에서 인코딩하는 대신 캐시된 레이턴트를 직접 사용합니다. 이 접근 방식은 두 가지 주요 이점을 제공합니다:학습 중 불필요한 VAE 인코딩 계산을 제거하여 각 학습 단계의 속도를 높입니다.캐싱 후 VAE를 GPU 메모리에서 완전히 제거할 수 있습니다. 단점은 모든 캐시된 레이턴트를 저장하기 위해 RAM 사용량이 증가하지만, 이는 일반적으로 작은 데이터셋의 경우 관리 가능합니다.if args.cache_latents: latents_cache = [] for batch in tqdm(train_dataloader, desc="Caching latents"): with torch.no_grad(): batch["pixel_values"] = batch["pixel_values"].to( accelerator.device, non_blocking=True, dtype=weight_dtype ) latents_cache.append(vae.encode(batch["pixel_values"]).latent_dist) del vae free_memory()4비트 양자화 설정 (BitsAndBytesConfig):이 섹션에서는 기본 모델에 대한 QLoRA 구성을 보여줍니다:bnb_4bit_compute_dtype = torch.float32if args.mixed_precision == "fp16": bnb_4bit_compute_dtype = torch.float16elif args.mixed_precision == "bf16": bnb_4bit_compute_dtype = torch.bfloat16nf4_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=bnb_4bit_compute_dtype,)transformer = FluxTransformer2DModel.from_pretrained( args.pretrained_model_name_or_path, subfolder="transformer", quantization_config=nf4_config, torch_dtype=bnb_4bit_compute_dtype,)transformer = prepare_model_for_kbit_training(transformer, use_gradient_checkpointing=False)LoRA 구성 정의 (LoraConfig):양자화된 트랜스포머에 어댑터가 추가됩니다:transformer_lora_config = LoraConfig( r=args.rank, lora_alpha=args.rank, init_lora_weights="gaussian", target_modules=["to_k", "to_q", "to_v", "to_out.0"],)transformer.add_adapter(transformer_lora_config)print(f"trainable params: {transformer.num_parameters(only_trainable=True)} || all params: {transformer.num_parameters()}")텍스트 임베딩 사전 계산 (CLIP/T5)QLoRA 미세 조정을 시작하기 전에 텍스트 인코더의 출력을 한 번 캐싱하여 VRAM과 소요 시간을 크게 절약할 수 있습니다.학습 시 데이터 로더는 캡션을 다시 인코딩하는 대신 캐시된 임베딩을 단순히 읽으므로, CLIP/T5 인코더는 GPU 메모리에 상주할 필요가 없습니다.코드import argparseimport pandas as pdimport torchfrom datasets import load_datasetfrom huggingface_hub.utils import insecure_hashlibfrom tqdm.auto import tqdmfrom transformers import T5EncoderModelfrom diffusers import FluxPipelineMAX_SEQ_LENGTH = 77OUTPUT_PATH = "embeddings.parquet"def generate_image_hash(image): return insecure_hashlib.sha256(image.tobytes()).hexdigest()def load_flux_dev_pipeline(): id = "black-forest-labs/FLUX.1-dev" text_encoder = T5EncoderModel.from_pretrained(id, subfolder="text_encoder_2", load_in_8bit=True, device_map="auto") pipeline = FluxPipeline.from_pretrained( id, text_encoder_2=text_encoder, transformer=None, vae=None, device_map="balanced" ) return pipeline@torch.no_grad()def compute_embeddings(pipeline, prompts, max_sequence_length): all_prompt_embeds = [] all_pooled_prompt_embeds = [] all_text_ids = [] for prompt in tqdm(prompts, desc="Encoding prompts."): ( prompt_embeds, pooled_prompt_embeds, text_ids, ) = pipeline.encode_prompt(prompt=prompt, prompt_2=None, max_sequence_length=max_sequence_length) all_prompt_embeds.append(prompt_embeds) all_pooled_prompt_embeds.append(pooled_prompt_embeds) all_text_ids.append(text_ids) max_memory = torch.cuda.max_memory_allocated() / 1024 / 1024 / 1024 print(f"Max memory allocated: {max_memory:.3f} GB") return all_prompt_embeds, all_pooled_prompt_embeds, all_text_idsdef run(args): dataset = load_dataset("Norod78/Yarn-art-style", split="train") image_prompts = {generate_image_hash(sample["image"]): sample["text"] for sample in dataset} all_prompts = list(image_prompts.values()) print(f"{len(all_prompts)=}") pipeline = load_flux_dev_pipeline() all_prompt_embeds, all_pooled_prompt_embeds, all_text_ids = compute_embeddings( pipeline, all_prompts, args.max_sequence_length ) data = [] for i, (image_hash, _) in enumerate(image_prompts.items()): data.append((image_hash, all_prompt_embeds[i], all_pooled_prompt_embeds[i], all_text_ids[i])) print(f"{len(data)=}") embedding_cols = ["prompt_embeds", "pooled_prompt_embeds", "text_ids"] df = pd.DataFrame(data, columns=["image_hash"] + embedding_cols) print(f"{len(df)=}") for col in embedding_cols: df[col] = df[col].apply(lambda x: x.cpu().numpy().flatten().tolist()) df.to_parquet(args.output_path) print(f"Data successfully serialized to {args.output_path}")if __name__ == "__main__": parser = argparse.ArgumentParser() parser.add_argument( "--max_sequence_length", type=int, default=MAX_SEQ_LENGTH, help="Maximum sequence length to use for computing the embeddings. The more the higher computational costs.", ) parser.add_argument("--output_path", type=str, default=OUTPUT_PATH, help="Path to serialize the parquet file.") args = parser.parse_args() run(args)사용 방법python compute_embeddings.py --max_sequence_length 77 --output_path embeddings_alphonse_mucha.parquet이를 캐시된 VAE 레이턴트(--cache_latents)와 결합하면 활성 모델이 양자화된 트랜스포머 + LoRA 어댑터로만 줄어들어, 전체 미세 조정이 10GB 미만의 GPU 메모리로 충분히 가능해집니다.설정 및 결과이 시연을 위해 우리는 NVIDIA RTX 4090 (24GB VRAM)을 활용하여 성능을 탐색했습니다. 가속화(accelerate)를 사용한 전체 학습 명령은 아래에 나와 있습니다.accelerate launch --config_file=accelerate.yaml train_dreambooth_lora_flux_miniature.py --pretrained_model_name_or_path="black-forest-labs/FLUX.1-dev" --data_df_path="embeddings_alphonse_mucha.parquet" --output_dir="alphonse_mucha_lora_flux_nf4" --mixed_precision="bf16" --use_8bit_adam --weighting_scheme="none" --width=512 --height=768 --train_batch_size=1 --repeats=1 --learning_rate=1e-4 --guidance_scale=1 --report_to="wandb" --gradient_accumulation_steps=4 --gradient_checkpointing --lr_scheduler="constant" --lr_warmup_steps=0 --cache_latents --rank=4 --max_train_steps=700 --seed="0"RTX 4090 구성:RTX 4090에서 우리는 train_batch_size를 1, gradient_accumulation_steps를 4, mixed_precision="bf16", gradient_checkpointing=True, use_8bit_adam=True, LoRA 랭크를 4, 해상도를 512x768로 사용했습니다. 레이턴트는 cache_latents=True로 캐싱되었습니다.메모리 사용량 (RTX 4090):QLoRA: QLoRA 미세 조정을 위한 최대 VRAM 사용량은 약 9GB였습니다.BF16 LoRA: 동일한 설정에서 표준 LoRA(FP16의 기본 FLUX.1-dev 포함)를 실행하면 26GB VRAM을 소비했습니다.BF16 전체 미세 조정: 메모리 최적화 없이 약 120GB VRAM이 예상됩니다.학습 시간 (RTX 4090):알폰스 무하 데이터셋에서 700단계 동안 미세 조정하는 데 RTX 4090에서 train_batch_size 1, 해상도 512x768로 약 41분이 소요되었습니다.출력 품질:궁극적인 측정 기준은 생성된 예술 작품입니다. 다음은 derekl35/alphonse-mucha-style 데이터셋에서 QLoRA 미세 조정 모델로 생성된 샘플입니다:이 표는 주요 bf16 정밀도 결과를 비교합니다. 미세 조정의 목표는 모델에 알폰스 무하의 독특한 스타일을 학습시키는 것이었습니다.프롬프트기본 모델 출력QLoRA 미세 조정 출력 (무하 스타일)"평온한 검은 머리 여성, 달빛 백합, 소용돌이치는 식물, 알폰스 무하 스타일""연못의 강아지, 알폰스 무하 스타일""단풍잎과 열매 목걸이를 한 화려한 여우, 숲의 태피스트리 한가운데, 알폰스 무하 스타일"미세 조정된 모델은 장식적인 모티프와 독특한 색상 팔레트에서 알폰스 무하의 상징적인 아르누보 스타일을 멋지게 포착했습니다. QLoRA 프로세스는 새로운 스타일을 학습하면서도 뛰어난 충실도를 유지했습니다.fp16 비교를 보려면 클릭하십시오.결과는 거의 동일하며, QLoRA가 fp16 및 bf16 혼합 정밀도 모두에서 효과적으로 작동함을 보여줍니다.모델 비교: 기본 vs. QLoRA 미세 조정 (fp16)프롬프트기본 모델 출력QLoRA 미세 조정 출력 (무하 스타일)"평온한 검은 머리 여성, 달빛 백합, 소용돌이치는 식물, 알폰스 무하 스타일""연못의 강아지, 알폰스 무하 스타일""단풍잎과 열매 목걸이를 한 화려한 여우, 숲의 태피스트리 한가운데, 알폰스 무하 스타일"FP8 토르차오(torchao)를 이용한 미세 조정컴퓨트 능력 8.9 이상(예: H100, RTX 4090)을 가진 NVIDIA GPU 사용자의 경우, 토르차오 라이브러리를 통한 FP8 학습을 활용하여 훨씬 더 큰 속도 효율성을 달성할 수 있습니다.우리는 H100 SXM GPU에서 약간 수정된 diffusers-torchao 학습 스크립트를 사용하여 FLUX.1-dev LoRA를 미세 조정했습니다. 다음 명령이 사용되었습니다:accelerate launch train_dreambooth_lora_flux.py --pretrained_model_name_or_path=black-forest-labs/FLUX.1-dev --dataset_name=derekl35/alphonse-mucha-style --instance_prompt="a woman, alphonse mucha style" --caption_column="text" --output_dir=alphonse_mucha_fp8_lora_flux --mixed_precision=bf16 --use_8bit_adam --weighting_scheme=none --height=768 --width=512 --train_batch_size=1 --repeats=1 --learning_rate=1e-4 --guidance_scale=1 --report_to=wandb --gradient_accumulation_steps=1 --gradient_checkpointing --lr_scheduler=constant --lr_warmup_steps=0 --rank=4 --max_train_steps=700 --checkpointing_steps=600 --seed=0 --do_fp8_training --push_to_hub학습 실행 시 최대 메모리 사용량은 36.57GB였고, 약 20분 만에 완료되었습니다.이 FP8 미세 조정 모델의 정성적 결과도 확인할 수 있습니다:토르차오를 이용한 FP8 학습을 활성화하는 주요 단계는 다음과 같습니다:torchao.float8의 convert_to_float8_training을 사용하여 모델에 FP8 레이어를 주입합니다.module_filter_fn을 정의하여 어떤 모듈을 FP8로 변환해야 하고 어떤 모듈을 변환하지 않아야 하는지 지정합니다.더 자세한 가이드와 코드 스니펫은 이 gist와 diffusers-torchao 저장소를 참조하십시오.학습된 LoRA 어댑터로 추론하기LoRA 어댑터를 학습한 후에는 추론을 위한 두 가지 주요 접근 방식이 있습니다.옵션 1: LoRA 어댑터 로드하기한 가지 접근 방식은 기본 모델 위에 학습된 LoRA 어댑터를 로드하는 것입니다.LoRA 로드의 이점:유연성: 기본 모델을 다시 로드하지 않고도 다른 LoRA 어댑터 간에 쉽게 전환할 수 있습니다.실험: 어댑터를 교체하여 여러 예술 스타일 또는 개념을 테스트할 수 있습니다.모듈성: set_adapters()를 사용하여 여러 LoRA 어댑터를 결합하여 창의적인 혼합을 할 수 있습니다.저장 효율성: 단일 기본 모델과 여러 개의 작은 어댑터 파일을 유지할 수 있습니다.코드from diffusers import FluxPipeline, FluxTransformer2DModel, BitsAndBytesConfigimport torch ckpt_id = "black-forest-labs/FLUX.1-dev"pipeline = FluxPipeline.from_pretrained( ckpt_id, torch_dtype=torch.float16)pipeline.load_lora_weights("derekl35/alphonse_mucha_qlora_flux", weight_name="pytorch_lora_weights.safetensors")pipeline.enable_model_cpu_offload()image = pipeline( "a puppy in a pond, alphonse mucha style", num_inference_steps=28, guidance_scale=3.5, height=768, width=512, generator=torch.manual_seed(0)).images[0]image.save("alphonse_mucha.png")옵션 2: LoRA를 기본 모델에 병합하기단일 스타일로 최대 효율성을 원할 경우 LoRA 가중치를 기본 모델에 병합할 수 있습니다.LoRA 병합의 이점:VRAM 효율성: 추론 중 어댑터 가중치로 인한 추가 메모리 오버헤드가 없습니다.속도: 어댑터 계산을 적용할 필요가 없으므로 추론 속도가 약간 더 빠릅니다.양자화 호환성: 병합된 모델을 다시 양자화하여 최대 메모리 효율성을 얻을 수 있습니다.코드from diffusers import FluxPipeline, AutoPipelineForText2Image, FluxTransformer2DModel, BitsAndBytesConfigimport torch ckpt_id = "black-forest-labs/FLUX.1-dev"pipeline = FluxPipeline.from_pretrained( ckpt_id, text_encoder=None, text_encoder_2=None, torch_dtype=torch.float16)pipeline.load_lora_weights("derekl35/alphonse_mucha_qlora_flux", weight_name="pytorch_lora_weights.safetensors")pipeline.fuse_lora()pipeline.unload_lora_weights()pipeline.transformer.save_pretrained("fused_transformer")bnb_4bit_compute_dtype = torch.bfloat16nf4_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=bnb_4bit_compute_dtype,)transformer = FluxTransformer2DModel.from_pretrained( "fused_transformer", quantization_config=nf4_config, torch_dtype=bnb_4bit_compute_dtype,)pipeline = AutoPipelineForText2Image.from_pretrained( ckpt_id, transformer=transformer, torch_dtype=bnb_4bit_compute_dtype)pipeline.enable_model_cpu_offload()image = pipeline( "a puppy in a pond, alphonse mucha style", num_inference_steps=28, guidance_scale=3.5, height=768, width=512, generator=torch.manual_seed(0)).images[0]image.save("alphonse_mucha_merged.png")구글 코랩(Google Colab)에서 실행하기우리는 RTX 4090에서 결과를 선보였지만, 동일한 코드를 구글 코랩에서 무료로 제공되는 T4 GPU와 같은 더 접근하기 쉬운 하드웨어에서도 실행할 수 있습니다. T4에서는 동일한 단계 수에 대해 미세 조정 프로세스가 약 4시간으로 훨씬 더 오래 걸릴 것으로 예상할 수 있습니다. 이는 접근성을 위한 절충안이지만, 고성능 하드웨어 없이도 맞춤형 미세 조정을 가능하게 합니다. 코랩에서 실행하는 경우 사용량 제한에 유의하십시오. 4시간 학습 실행은 제한을 초과할 수 있습니다.결론QLoRA는 디퓨저스(diffusers) 라이브러리와 결합하여 FLUX.1-dev와 같은 최첨단 모델을 사용자 정의할 수 있는 능력을 크게 민주화합니다. RTX 4090에서 시연된 바와 같이, 효율적인 미세 조정은 충분히 가능하며 고품질의 스타일적 적응을 제공합니다. 또한 최신 NVIDIA 하드웨어를 사용하는 사용자의 경우, 토르차오(torchao)는 FP8 정밀도를 통해 훨씬 빠른 학습을 가능하게 합니다.허브에 여러분의 창작물을 공유해주세요!미세 조정된 LoRA 어댑터를 공유하는 것은 오픈 소스 커뮤니티에 기여하는 훌륭한 방법입니다. 이를 통해 다른 사람들이 여러분의 스타일을 쉽게 시도하고, 여러분의 작업을 기반으로 구축하며, 창의적인 AI 도구의 활기찬 생태계를 만드는 데 도움이 됩니다.FLUX.1-dev용 LoRA를 학습했다면 공유하는 것을 권장합니다. 가장 쉬운 방법은 학습 스크립트에 --push_to_hub 플래그를 추가하는 것입니다. 또는 이미 모델을 학습했고 업로드하고 싶다면 다음 스니펫을 사용할 수 있습니다.from huggingface_hub import create_repo, upload_folderrepo_id = "your-username/alphonse_mucha_qlora_flux"create_repo(repo_id, exist_ok=True)upload_folder( repo_id=repo_id, folder_path="alphonse_mucha_qlora_flux", commit_message="Add Alphonse Mucha LoRA adapter")우리의 무하(Mucha) QLoRA https://huggingface.co/derekl35/alphonse_mucha_qlora_flux FP8 LoRA https://huggingface.co/derekl35/alphonse_mucha_fp8_lora_flux를 확인하십시오. 이 컬렉션에서 예시로 두 가지와 다른 어댑터들을 모두 찾을 수 있습니다.여러분이 무엇을 만들어낼지 기대됩니다!출처: Hugging Face Blog

•2025년 6월 20일•조회 0

AI, 국제 수학 올림피아드 은메달 쾌거… 인간 수준 추론 능력 입증

과학 AI, 국제 수학 올림피아드 문제 해결에서 은메달 수준 달성 발행일: 2024년 7월 25일 저자: 알파프루프 및 알파지오메트리 팀 획기적인 모델인 알파프루프(AlphaProof)와 알파지오메트리 2(AlphaGeometry 2)가 수학 분야의 고급 추론 문제를 해결했습니다. 고급 수학적 추론 능력을 갖춘 인공 일반 지능(AGI)은 과학 및 기술 분야에서 새로운 지평을 열 잠재력을 가지고 있습니다. 우리는 수학자들이 새로운 통찰력, 혁신적인 알고리즘, 미해결 문제에 대한 답을 발견하도록 돕는 AI 시스템을 구축하는 데 큰 진전을 이루었습니다. 그러나 현재 AI 시스템은 추론 기술과 훈련 데이터의 한계로 인해 일반적인 수학 문제를 해결하는 데 여전히 어려움을 겪고 있습니다. 오늘 우리는 형식 수학 추론을 위한 새로운 강화 학습 기반 시스템인 알파프루프와 기하학 문제 해결 시스템의 개선 버전인 알파지오메트리 2를 선보입니다. 이 시스템들은 올해 국제 수학 올림피아드(IMO) 6개 문제 중 4개를 해결하여, 대회에서 처음으로 은메달리스트와 동일한 수준을 달성했습니다. 복잡한 수학 문제 해결에서 획기적인 AI 성능 IMO는 1959년부터 매년 개최되는 젊은 수학자들을 위한 가장 오래되고 규모가 크며 권위 있는 대회입니다. 매년 엘리트 예비 대학 수학자들은 수천 시간 동안 대수학, 조합론, 기하학, 정수론 분야의 6가지 매우 어려운 문제를 해결하기 위해 훈련합니다. 수학 분야의 최고 영예 중 하나인 필즈상 수상자 중 상당수가 IMO에서 자국을 대표했습니다. 최근에는 IMO 연례 대회가 머신러닝 분야의 큰 도전 과제이자 AI 시스템의 고급 수학적 추론 능력을 측정하는 기준점으로도 널리 인정받고 있습니다. 올해 우리는 통합 AI 시스템을 IMO 주최 측이 제공한 대회 문제에 적용했습니다. 우리의 해답은 IMO의 채점 규칙에 따라 저명한 수학자이자 IMO 금메달리스트 및 필즈상 수상자인 티모시 가워스 교수와 IMO 2회 금메달리스트이자 2024년 IMO 문제 선정 위원회 의장인 조셉 마이어스 박사에 의해 채점되었습니다. "이 프로그램이 이처럼 명백하지 않은 구성을 생각해낼 수 있다는 사실은 매우 인상적이며, 제가 생각했던 최첨단 기술을 훨씬 뛰어넘는 수준입니다." - 티모시 가워스 경 교수, IMO 금메달리스트 및 필즈상 수상자 먼저, 우리 시스템이 이해할 수 있도록 문제는 수동으로 형식 수학 언어로 번역되었습니다. 공식 대회에서 학생들은 각각 4.5시간씩 두 세션으로 답안을 제출합니다. 우리 시스템은 한 문제를 몇 분 안에 해결했으며, 다른 문제들을 해결하는 데는 최대 3일이 걸렸습니다. 알파프루프는 두 개의 대수 문제와 한 개의 정수론 문제를 답을 결정하고 그것이 옳다는 것을 증명함으로써 해결했습니다. 여기에는 올해 IMO에서 단 5명의 참가자만이 해결한 대회에서 가장 어려운 문제가 포함되었습니다. 알파지오메트리 2는 기하학 문제를 증명했지만, 두 개의 조합론 문제는 해결되지 않았습니다. (우리 시스템의 IMO 2024 솔루션 보기) 6개 문제 각각은 7점을 얻을 수 있으며, 총점은 최대 42점입니다. 우리 시스템은 최종 28점을 얻었으며, 해결한 각 문제에서 만점을 받았습니다. 이는 은메달 카테고리의 최고 수준에 해당합니다. 올해 금메달 기준점은 29점에서 시작하며, 공식 대회 참가자 609명 중 58명이 달성했습니다. (IMO 2024에서 인간 경쟁자 대비 우리 AI 시스템의 성능을 보여주는 그래프. 우리는 총 42점 중 28점을 얻어 대회에서 은메달리스트와 동일한 수준을 달성했습니다.) 알파프루프: 형식적 추론 접근법 알파프루프는 형식 언어인 Lean으로 수학적 명제를 증명하도록 자체적으로 훈련하는 시스템입니다. 이 시스템은 사전 훈련된 언어 모델을 알파제로(AlphaZero) 강화 학습 알고리즘과 결합합니다. 알파제로는 이전에 체스, 쇼기, 바둑 게임을 마스터하도록 자체적으로 학습했습니다. 형식 언어는 수학적 추론을 포함하는 증명을 정확성 측면에서 공식적으로 검증할 수 있다는 중요한 이점을 제공합니다. 그러나 머신러닝에서의 사용은 이전에 인간이 작성한 데이터의 양이 매우 제한적이라는 제약이 있었습니다. 이와 대조적으로 자연어 기반 접근 방식은 훨씬 더 많은 데이터에 접근할 수 있음에도 불구하고, 그럴듯하지만 잘못된 중간 추론 단계와 해답을 환각할 수 있습니다. 우리는 제미니(Gemini) 모델을 미세 조정하여 자연어 문제 진술을 형식 진술로 자동 번역함으로써 이 두 상호 보완적인 영역 사이에 다리를 놓아, 다양한 난이도의 방대한 형식 문제 라이브러리를 만들었습니다. 문제가 주어지면 알파프루프는 해답 후보를 생성한 다음 Lean에서 가능한 증명 단계를 탐색하여 이를 증명하거나 반증합니다. 발견되고 검증된 각 증명은 알파프루프의 언어 모델을 강화하는 데 사용되어, 이후 더 어려운 문제를 해결하는 능력을 향상시킵니다. 우리는 IMO를 위해 대회 몇 주 전부터 광범위한 난이도와 수학적 주제 영역을 다루는 수백만 개의 문제를 증명하거나 반증함으로써 알파프루프를 훈련했습니다. 훈련 루프는 대회 중에도 적용되어, 완전한 해답을 찾을 때까지 자체 생성된 대회 문제 변형에 대한 증명을 강화했습니다. (알파프루프의 강화 학습 훈련 루프 프로세스 인포그래픽: 약 백만 개의 비형식 수학 문제가 형식화 네트워크에 의해 형식 수학 언어로 번역됩니다. 그런 다음 해결사 네트워크는 문제의 증명 또는 반증을 찾으며, 알파제로 알고리즘을 통해 점진적으로 자체 훈련하여 더 어려운 문제를 해결합니다.) 더욱 경쟁력 있는 알파지오메트리 2 알파지오메트리 2는 알파지오메트리의 상당히 개선된 버전입니다. 이 시스템은 제미니를 기반으로 하는 신경-상징 하이브리드 시스템으로, 이전 버전보다 한 자릿수 더 많은 합성 데이터를 사용하여 처음부터 훈련되었습니다. 이는 모델이 물체의 움직임, 각도, 비율 또는 거리의 방정식에 대한 문제를 포함하여 훨씬 더 어려운 기하학 문제를 해결하는 데 도움이 되었습니다. 알파지오메트리 2는 이전 버전보다 두 자릿수 더 빠른 상징 엔진을 사용합니다. 새로운 문제가 주어지면, 새로운 지식 공유 메커니즘을 사용하여 다양한 검색 트리의 고급 조합을 가능하게 하여 더 복잡한 문제를 해결합니다. 올해 대회 전, 알파지오메트리 2는 지난 25년간의 모든 IMO 기하학 문제 중 83%를 해결할 수 있었는데, 이는 이전 버전이 달성한 53%에 비해 향상된 수치입니다. 2024년 IMO에서 알파지오메트리 2는 형식화된 후 19초 이내에 문제 4를 해결했습니다. (문제 4의 그림. ∠KIL과 ∠XPY의 합이 180°임을 증명하도록 요청합니다. 알파지오메트리 2는 ∠AEB = 90°가 되도록 선 BI 위에 점 E를 구성할 것을 제안했습니다. 점 E는 AB의 중점 L에 목적을 부여하여 ABE ~ YBI 및 ALE ~ IPC와 같은 많은 유사 삼각형 쌍을 생성하여 결론을 증명하는 데 필요합니다.) 수학적 추론의 새로운 지평 IMO 작업의 일환으로 우리는 고급 문제 해결 기술을 가능하게 하기 위해 제미니와 최신 연구를 기반으로 구축된 자연어 추론 시스템도 실험했습니다. 이 시스템은 문제를 형식 언어로 번역할 필요가 없으며 다른 AI 시스템과 결합될 수 있습니다. 우리는 또한 올해 IMO 문제에 이 접근 방식을 테스트했으며 결과는 큰 가능성을 보여주었습니다. 우리 팀은 수학적 추론을 발전시키기 위한 여러 AI 접근 방식을 계속 탐색하고 있으며 곧 알파프루프에 대한 더 많은 기술적 세부 정보를 공개할 계획입니다. 우리는 수학자들이 AI 도구와 협력하여 가설을 탐색하고, 오랫동안 풀리지 않던 문제에 대한 대담한 새로운 접근 방식을 시도하며, 증명의 시간 소모적인 요소를 신속하게 완료하는 미래를 기대합니다. 그리고 제미니와 같은 AI 시스템이 수학 및 더 광범위한 추론에서 더욱 유능해지는 미래를 기대합니다. 감사의 말씀 저희는 국제 수학 올림피아드 조직의 지원에 감사드립니다. 알파프루프 개발은 토마스 휴버트, 리시 메타, 로랑 사트란이 주도했습니다. 알파지오메트리 2 및 자연어 추론 노력은 탕 르엉이 주도했습니다. 알파프루프는 후세인 마숨, 아자 황, 미클로스 Z. 호바스, 톰 자하비, 비벡 비리아, 에릭 위저, 제시카 영, 레이 유, 야닉 슈뢰커, 줄리안 슈리트바이저, 오타비아 베르톨리, 보르하 이바르즈, 에드워드 록하트, 에드워드 휴즈, 마크 롤랜드, 그레이스 마간드의 주요 기여로 개발되었습니다. 알렉스 데이비스와 다니엘 정은 최종 답안 결정과 같은 비형식 시스템 개발을 주도했으며, 이율리야 벨로샤프카, 잉그리드 폰 글렌, 인 리, 파비안 페드레고사, 아메야 벨링커, 고란 주지치의 주요 기여가 있었습니다. 올리버 내쉬, 바빅 메타, 폴 르조, 살바토레 메르쿠리, 로렌스 우, 칼레 소엔느, 토마스 머릴스, 루이지 마사치, 앤드류 양은 린 전문가로서 조언하고 기여했습니다. 과거 기여자로는 아몰 만단, 톰 에클스, 에세르 아이군, 지타오 공, 리처드 에반스, 소냐 모크라, 아민 바레카타인, 웬디 샹, 한나 오픈쇼, 펠릭스 기메노가 있습니다. 이 작업은 데이비드 실버와 푸쉬미트 콜리가 조언했습니다. 알파지오메트리 2의 개발은 트리유 트린과 유리 체르보니가 주도했으며, 미렉 올샥, 샤오멍 양, 호앙 응우옌, 정준혁, 황도선, 마르셀로 메네갈리의 주요 기여가 있었습니다. 자연어 추론 시스템의 개발은 골나즈 기아시, 개럿 빙햄, 야광 리가 주도했으며, 스와룹 미쉬라, 니가마 나야칸티, 시드하르스 무드갈, 탄치준, 정준혁, 호앙 응우옌, 알렉스 자이, 황도선, 덩밍양, 후이이 후 클라라, 재러드 칸, 마시에이 쿨라, 코스모 두의 주요 기여가 있었습니다. 알파지오메트리와 자연어 추론 시스템 모두 쿠옥 레가 조언했습니다. 데이비드 실버, 쿠옥 레, 데미스 하사비스, 푸쉬미트 콜리가 전체 프로젝트를 조율하고 관리했습니다. 또한 언어 추론 시스템의 품질 평가를 도운 서인석, 에반 첸, 지그마르스 라스체프스키스, 카리 라그나르손, 배준휘, 안정현, 김지민, 팜훙, 응우옌 응우옌, 팜손, 파신 마누랑시에게 감사드립니다. 컴퓨팅 제공 및 관리를 지원한 제프 스탠웨이, 제시카 로, 에리카 모레이라, 페트코 요토프, 카림 아유브에게도 감사드립니다. 지원과 협력에 감사하는 IMO 이사회 그레고르 돌리나르 교수와 제프 스미스 MBE 박사. 그리고 투 부, 린 한자오, 쿠앙 첸카이, 비카스 베르마, 루 이펑, 첸 신윤, 저우 데니, 자인 비한, 미하우스키 헨릭, 가르시아 자비에르, 카르 아르준, 람프루 람프로스, 파텔 카우샬, 쉬 켈빈, 톨스티킨 일리야, 부스케 올리비에, 치출린 안톤, 젤레 더스틴, 캐리 CJ, 블랙웰 샘, 라오 아비, 미로크니 바합, 네이샤부르 베흐남, 다이어 에단, 러쉬 키스, 피르싱 모리츠, 슈베드 댄, 부리 이하르, 란잔 디비얀슈, 하시미 하디, 벤데부리 알렉세이, 무라드 시블, 슈미트 시몬, 바베자 사틴더, 다이어 크리스, 오스틴 제이콥, 리 웬다, 청 헹쯔, 치 에드, 카부크추오글루 코레이, 비니알스 오리올, 딘 제프, 브린 세르게이에게도 지원과 조언에 감사드립니다. 마지막으로, 알파프루프를 가능하게 해준 린(Lean) 및 매스리브(Mathlib) 프로젝트의 많은 기여자들에게 감사드립니다. 출처: DeepMind Blog

•2025년 6월 20일•조회 0

멀티모달 AI 시스템 설계의 핵심: 모델 스태킹을 넘어선 아키텍처 원칙

인공지능 모델 스태킹을 넘어: 멀티모달 AI 시스템을 작동시키는 아키텍처 원칙 개별 모델을 협력적 지능으로 전환하기 에릭 정 2025년 6월 19일 16분 분량 공유하기 ChatGPT의 DALL·E 3로 저자가 생성한 이미지 1. 모든 것은 비전에서 시작되었다 아이언맨을 다시 보던 중, JARVIS가 장면을 얼마나 깊이 이해하는지에 매료되었습니다. 단순히 객체를 인식하는 것을 넘어, 문맥을 이해하고 자연어로 장면을 설명했습니다. “이곳은 보행자들이 횡단보도를 건너기 위해 기다리고 있고, 교통 흐름이 원활한 번잡한 교차로입니다.” 그 순간 더 깊은 질문이 떠올랐습니다. AI가 인간처럼 직관적으로 장면을 진정으로 이해할 수 있을까? PawMatchAI를 완성한 후, 그 아이디어는 더욱 분명해졌습니다. 이 시스템은 124가지 견종을 정확히 식별했지만, 래브라도를 인식하는 것과 그 개가 실제로 무엇을 하고 있는지 이해하는 것은 전혀 다르다는 것을 깨달았습니다. 진정한 장면 이해는 단순히 객체 라벨을 나열하는 것이 아니라, ‘이것은 어디에 있는가?’ ‘여기서 무슨 일이 일어나고 있는가?’와 같은 질문을 던지는 것을 의미합니다. 이러한 깨달음은 장면을 진정으로 이해하도록 설계된 멀티모달 AI 시스템, 비전스카우트(VisionScout)를 구축하게 된 계기였습니다. 도전 과제는 단순히 몇 개의 모델을 쌓아 올리는 것이 아니었습니다. 그것은 아키텍처 퍼즐이었습니다. YOLOv8(탐지), CLIP(의미론적 추론), Places365(장면 분류), Llama 3.2(언어 생성) 같은 모델들을 단순히 병렬로 사용하는 것을 넘어, 하나의 팀처럼 협력하게 만드는 방법은 무엇일까? 비전스카우트를 구축하면서, 진정한 도전은 복잡한 문제를 분해하고, 모듈 간 명확한 경계를 설정하며, 이들이 효과적으로 협력하도록 논리를 설계하는 데 있다는 것을 깨달았습니다. 💡 다음 섹션들은 이 진화 과정을 단계별로, 초기 개념부터 세 번의 주요 아키텍처 전면 개편까지, 비전스카우트를 응집력 있고 적응성 있는 시스템으로 만든 핵심 원칙들을 강조하며 설명합니다. 2. 시스템 진화의 세 가지 결정적 단계 2.1 첫 번째 진화: 탐지에서 이해로의 인지적 도약 PawMatchAI에서 배운 것을 바탕으로, 여러 탐지 모델을 결합하는 것만으로 장면 이해에 충분할 것이라는 아이디어로 시작했습니다. DetectionModel이 핵심 추론을 처리하고, ColorMapper가 다양한 카테고리에 대한 색상 코딩을 제공하며, VisualizationHelper가 색상을 바운딩 박스에 매핑하고, EvaluationMetrics가 통계를 처리하는 기초 아키텍처를 구축했습니다. 시스템은 약 1,000줄 길이였고 객체를 안정적으로 탐지하고 기본적인 시각화를 보여줄 수 있었습니다. 하지만 시스템이 탐지 데이터만 생성하고 있었고, 이는 사용자에게 그다지 유용하지 않다는 것을 곧 깨달았습니다. 시스템이 “3명, 자동차 2대, 신호등 1개 탐지됨”이라고 보고했을 때, 사용자들은 실제로 ‘이것은 어디에 있는가?’ ‘여기서 무슨 일이 일어나고 있는가?’ ‘내가 알아야 할 것이 있는가?’를 묻고 있었습니다. 이는 템플릿 기반 접근 방식을 시도했습니다. 탐지된 객체들의 조합을 기반으로 고정된 형식의 설명을 생성했습니다. 예를 들어, 사람, 자동차, 신호등을 탐지하면 “이것은 보행자와 차량이 있는 교통 장면입니다.”라고 반환했습니다. 이 방식은 시스템이 장면을 “이해하는” 것처럼 보이게 했지만, 이 접근 방식의 한계는 빠르게 명확해졌습니다. 밤거리 사진에 시스템을 실행했을 때, 여전히 “이것은 밝은 교통 장면입니다.”와 같이 명백히 잘못된 설명을 제공했습니다. 더 자세히 살펴보니 실제 문제는 전통적인 시각 분석이 프레임 안에 무엇이 있는지 보고만 한다는 것이었습니다. 하지만 장면을 이해한다는 것은 무슨 일이 일어나고 있는지, 왜 일어나는지, 그리고 무엇을 의미할 수 있는지를 파악하는 것을 의미합니다. 그 순간 한 가지가 명확해졌습니다. 시스템이 기술적으로 가능한 것과 실제로 유용한 것 사이에는 큰 간극이 있었습니다. 그 간극을 해결하는 것은 템플릿 이상의 것, 즉 더 깊은 아키텍처적 사고가 필요합니다. 2.2 두 번째 진화: 멀티모달 융합의 공학적 도전 장면 이해에 깊이 파고들수록, 실제 이해가 요구하는 모든 것을 단일 모델이 커버할 수 없다는 것이 더욱 분명해졌습니다. 이러한 깨달음은 전체 시스템 구조를 재고하게 만들었습니다. 각 모델은 다른 것을 제공했습니다. YOLO는 객체 탐지를 처리했고, CLIP은 의미론에 집중했으며, Places365는 장면 분류를 도왔고, Llama는 언어 생성을 담당했습니다. 진정한 도전은 이들을 어떻게 함께 작동하게 할 것인가를 알아내는 것이었습니다. 장면 이해를 탐지, 의미론, 장면 분류, 언어 생성의 여러 계층으로 나누었습니다. 까다로웠던 점은 이 부분들이 서로 방해하지 않고 원활하게 함께 작동하도록 하는 것이었습니다. 각 모델의 가중치를 장면의 특성에 따라 조절하는 함수를 개발했습니다. 한 모델이 장면에 대해 특히 확신한다면, 시스템은 그 모델에 더 많은 가중치를 부여했습니다. 하지만 상황이 덜 명확할 때는 다른 모델들이 주도권을 잡도록 허용했습니다. 모델들을 통합하기 시작하자 상황은 빠르게 더욱 복잡해졌습니다. 몇 개의 카테고리로 시작했던 것이 곧 수십 개로 확장되었고, 각 새로운 기능은 이전에 작동하던 것을 망가뜨릴 위험이 있었습니다. 디버깅은 도전 과제가 되었습니다. 한 가지 문제를 고치는 것이 시스템의 다른 부분에서 쉽게 두 가지 더 많은 문제를 유발할 수 있었습니다. 그때 깨달았습니다. 복잡성 관리는 단순히 부수적인 문제가 아니라, 그 자체로 디자인 문제라는 것을 깨달았습니다. 2.3 세 번째 진화: 혼돈에서 명확함으로의 디자인 돌파구 어느 시점에서 시스템의 복잡성은 통제 불능 상태가 되었습니다. 단일 클래스 파일이 2,000줄을 넘어서며, 모델 조정, 데이터 변환, 오류 처리, 결과 융합 등 10가지 이상의 책임을 떠맡고 있었습니다. 이는 명백히 단일 책임 원칙(Single Responsibility Principle)을 위반하는 것이었습니다. 작은 것을 수정해야 할 때마다, 거대한 파일을 뒤져서 올바른 섹션을 찾아야 했습니다. 사소한 변경이 우연히 다른 것을 망가뜨릴 수 있다는 불안감에 항상 긴장했습니다. 이러한 문제들과 씨름한 후, 임시방편으로는 충분하지 않다는 것을 알게 되었습니다. 시스템 구조를 완전히 재고하여, 계속 성장하더라도 관리 가능한 방식으로 만들어야 했습니다. 다음 며칠 동안, 저는 같은 근본적인 문제에 계속 부딪혔습니다. 진정한 장애물은 함수의 복잡성이 아니라, 모든 것이 얼마나 긴밀하게 연결되어 있는지였습니다. 조명 로직에서 무엇이든 변경하는 것은 공간 분석, 의미론적 해석, 심지어 언어 출력에 어떻게 영향을 미칠지 다시 확인해야 한다는 것을 의미했습니다. 모델 가중치를 조정하는 것도 간단하지 않았습니다. 매번 네 가지 모델 모두에서 형식과 데이터 흐름을 수동으로 동기화해야 했습니다. 그때 계층형 접근 방식을 사용하여 아키텍처를 리팩토링하기 시작했습니다. 세 가지 레벨로 나누었습니다. 최하위 계층은 기술적 작업을 처리하는 전문 도구를 포함했습니다. 중간 계층은 특정 작업에 맞춰진 분석 엔진으로 논리에 집중했습니다. 최상위 계층은 모든 구성 요소 간의 흐름을 관리하는 조정 계층이었습니다. 조각들이 제자리를 찾으면서, 시스템은 더욱 투명하고 훨씬 관리하기 쉬워지기 시작했습니다. 2.4 네 번째 진화: 자동화보다 예측 가능성을 위한 설계 그 무렵, 또 다른 설계 과제에 부딪혔습니다. 이번에는 랜드마크 인식과 관련된 문제였습니다. 시스템은 CLIP의 제로샷(zero-shot) 기능을 사용하여 115개의 잘 알려진 랜드마크를 특정 작업 훈련 없이 식별했습니다. 하지만 실제 사용에서는 이 기능이 종종 방해가 되었습니다. 흔한 문제는 교차로의 항공 사진에서 발생했습니다. 시스템이 때때로 이를 도쿄의 시부야 교차로로 오인했고, 이 오분류가 전체 장면 해석을 망가뜨렸습니다. 처음에는 알고리즘의 일부 매개변수를 미세 조정하여 유사한 장면을 더 잘 구별하도록 돕고 싶었습니다. 하지만 그 접근 방식은 빠르게 역효과를 냈습니다. 시부야에 대한 오탐을 줄이자 다른 랜드마크에 대한 시스템의 정확도가 떨어졌습니다. 멀티모달 시스템에서는 작은 조정이라도 다른 부분에서 부작용을 일으켜 상황을 개선하기보다 악화시킬 수 있다는 것이 분명했습니다. 그때 데이터 과학의 A/B 테스트 원칙이 떠올랐습니다. 본질적으로 A/B 테스트는 단일 변경의 효과를 볼 수 있도록 변수를 격리하는 것입니다. 이는 시스템의 동작에 대해 다시 생각하게 했습니다. 모든 상황을 자동으로 처리하려고 하기보다는, 사용자가 결정하도록 하는 것이 더 나을 수도 있다는 생각이었습니다. 그래서 enable_landmark 매개변수를 설계했습니다. 겉으로는 단순히 불리언 스위치였지만, 그 이면의 사고방식이 더 중요했습니다. 사용자에게 제어권을 부여함으로써, 시스템을 더 예측 가능하게 만들고 실제 요구 사항과 더 잘 일치시킬 수 있었습니다. 일상적인 사진의 경우, 사용자는 오탐을 피하기 위해 랜드마크 탐지를 끌 수 있었습니다. 여행 이미지의 경우, 문화적 맥락과 위치 정보를 얻기 위해 켤 수 있었습니다. 이 단계는 저에게 두 가지 교훈을 확고히 했습니다. 첫째, 좋은 시스템 설계는 기능을 쌓아 올리는 것이 아니라, 실제 문제를 깊이 이해하는 데서 비롯됩니다. 둘째, 완전히 자동적이지만 결국 혼란스럽거나 신뢰할 수 없는 시스템보다 예측 가능하게 동작하는 시스템이 종종 더 유용합니다. 3. 아키텍처 시각화: 디자인 사고의 완전한 구현 네 번의 주요 시스템 진화 단계를 거친 후, 새로운 질문을 스스로에게 던졌습니다. 설계를 정당화하고 확장성을 보장할 수 있도록 아키텍처를 어떻게 명확하게 제시할 수 있을까? 이를 알아내기 위해 처음에는 단순히 정리하기 위해 시스템 다이어그램을 처음부터 다시 그렸습니다. 하지만 이는 빠르게 전체 구조 검토가 되었습니다. 불분명한 모듈 경계, 중복되는 기능, 간과된 간극을 발견했습니다. 이는 모든 구성 요소의 역할과 필요성을 재평가하게 만들었습니다. 시각화되자 시스템의 논리가 더욱 명확해졌습니다. 책임, 종속성, 데이터 흐름이 더 깔끔하게 드러났습니다. 다이어그램은 구조를 명확히 할 뿐만 아니라, 계층화 및 협력에 대한 제 사고를 반영하는 것이 되었습니다. 다음 섹션들은 아키텍처를 계층별로 설명하며 디자인이 어떻게 형성되었는지 설명합니다. 서식 제한으로 인해 더 명확하고 상호작용적인 아키텍처 다이어그램은 여기에서 볼 수 있습니다. 3.1 구성 지식 계층: 유틸리티 계층 (지능형 기반 및 템플릿) 이 계층형 아키텍처를 설계할 때, 저는 핵심 원칙을 따랐습니다. 바로 시스템 복잡성이 위에서 아래로 점진적으로 감소해야 한다는 것이었습니다. 사용자에 가까울수록 인터페이스는 더 간단해지고, 시스템 깊숙이 들어갈수록 도구는 더 전문화됩니다. 이 구조는 책임을 명확하게 유지하고 시스템을 유지보수 및 확장하기 쉽게 만듭니다. 중복된 논리를 피하기 위해 유사한 기술 기능을 재사용 가능한 도구 모듈로 그룹화했습니다. 시스템이 광범위한 분석 작업을 지원하므로, 모듈화된 도구 그룹을 갖는 것이 체계적인 구성을 유지하는 데 필수적이었습니다. 아키텍처 다이어그램의 맨 아래에는 시스템의 핵심 도구 키트, 즉 제가 유틸리티 계층(Utility Layer)이라고 부르는 것이 있습니다. 이 계층을 각각 명확한 역할과 범위를 가진 여섯 개의 별개의 도구 그룹으로 구성했습니다. 공간 도구는 RegionAnalyzer, ObjectExtractor, ZoneEvaluator 및 다른 여섯 가지를 포함하여 공간 분석과 관련된 모든 구성 요소를 처리합니다. 객체 위치 및 레이아웃에 대한 추론을 요구하는 다양한 작업을 수행하면서, 이러한 기능을 단일하고 일관된 모듈 아래로 가져와야 할 필요성을 깨달았습니다. 조명 도구는 환경 조명 분석에 중점을 두며 ConfigurationManager, FeatureExtractor, IndoorOutdoorClassifier 및 LightingConditionAnalyzer를 포함합니다. 이 그룹은 시스템 진화의 두 번째 단계에서 탐구된 조명 문제를 직접적으로 지원합니다. 설명 도구는 시스템의 콘텐츠 생성을 담당합니다. TemplateRepository, ContentGenerator, StatisticsProcessor 및 기타 11가지 구성 요소를 포함합니다. 이 그룹의 크기는 언어 출력이 전반적인 사용자 경험에 얼마나 중요한지를 반영합니다. LLM 도구 및 CLIP 도구는 각각 Llama 및 CLIP 모델과의 상호 작용을 지원합니다. 각 그룹은 모델 입력/출력, 전처리 및 해석을 관리하는 4~5개의 집중된 모듈을 포함하여 이러한 핵심 AI 모델이 시스템 내에서 원활하게 작동하도록 돕습니다. 지식 베이스는 시스템의 참조 계층 역할을 합니다. 장면 유형, 객체 분류 체계, 랜드마크 메타데이터 및 기타 도메인 지식 파일에 대한 정의를 저장하여 구성 요소 전반에 걸쳐 일관된 이해의 기반을 형성합니다. 이러한 도구들을 조직할 때 한 가지 핵심 목표를 염두에 두었습니다. 각 그룹이 고립되지 않으면서 집중된 작업을 처리하도록 하는 것입니다. 이 설정은 책임을 명확하게 유지하고 모듈 간 협업을 더 쉽게 관리할 수 있도록 합니다. 3.2 인프라 계층: 지원 서비스 (독립적인 핵심 전력) 지원 서비스 계층은 시스템의 백본 역할을 하며, 전체 아키텍처에서 상대적으로 독립적으로 유지되도록 의도적으로 설계했습니다. 신중한 계획 끝에, 시스템의 가장 필수적인 AI 엔진 및 유틸리티 중 다섯 가지를 여기에 배치했습니다. DetectionModel(YOLO), Places365Model, ColorMapper, VisualizationHelper, EvaluationMetrics입니다. 이 계층은 저의 아키텍처의 핵심 원칙을 반영합니다. AI 모델 추론은 비즈니스 로직과 완전히 분리되어야 한다는 것이었습니다. 지원 서비스 계층은 원시 머신러닝 출력 및 핵심 처리 작업을 처리하지만, 이러한 출력이 상위 수준 추론에서 어떻게 해석되거나 사용되는지에 대해서는 관여하지 않습니다. 이러한 명확한 분리는 시스템을 모듈화하고, 유지보수하기 쉽게 만들며, 미래 변화에 더 잘 적응할 수 있도록 합니다. 이 계층을 설계할 때, 각 구성 요소에 대한 명확한 경계를 정의하는 데 집중했습니다. DetectionModel과 Places365Model은 핵심 추론 작업을 담당합니다. ColorMapper와 VisualizationHelper는 결과의 시각적 표현을 관리합니다. EvaluationMetrics는 탐지 출력에 대한 통계 분석 및 지표 계산에 중점을 둡니다. 책임이 명확히 분리되어 있어, 상위 수준 논리에 대한 의도치 않은 부작용을 걱정할 필요 없이 이 구성 요소들을 미세 조정하거나 교체할 수 있습니다. 3.3 지능형 분석 계층: 모듈 계층 (전문 자문 팀) 모듈 계층은 시스템이 장면에 대해 추론하는 방식의 핵심을 반영합니다. 각각 명확하게 정의된 역할을 가진 여덟 개의 전문 분석 엔진을 포함합니다. 이 모듈들은 공간 레이아웃 및 조명 조건부터 의미론적 설명 및 모델 조정에 이르기까지 장면 이해의 다양한 측면을 담당합니다. SpatialAnalyzer는 장면의 공간 레이아웃을 이해하는 데 중점을 둡니다. Spatial Tools 그룹의 도구를 사용하여 객체 위치, 상대 거리 및 지역 구성을 분석합니다. LightingAnalyzer는 환경 조명 조건을 해석합니다. Places365Model의 출력을 통합하여 시간대, 실내/실외 분류 및 가능한 날씨 맥락을 추론합니다. 또한 더 자세한 신호 추출을 위해 Lighting Tools에 의존합니다. EnhancedSceneDescriber는 탐지된 콘텐츠를 기반으로 고수준 장면 설명을 생성합니다. Description Tools를 활용하여 공간적 맥락과 객체 상호 작용을 모두 반영하는 구조화된 내러티브를 구축합니다. LLMEnhancer는 언어 출력 품질을 향상시킵니다. LLM Tools를 사용하여 설명을 더 유창하고, 일관성 있으며, 인간과 유사하게 만듭니다. CLIPAnalyzer 및 CLIPZeroShotClassifier는 멀티모달 의미론적 작업을 처리합니다. 전자는 이미지-텍스트 유사성 분석을 제공하고, 후자는 CLIP의 제로샷 기능을 사용하여 명시적인 훈련 없이 객체와 장면을 식별합니다. LandmarkProcessingManager는 주목할 만한 랜드마크 인식을 처리하고 이를 문화적 또는 지리적 맥락과 연결합니다. 이는 더 높은 수준의 상징적 의미로 장면 해석을 풍부하게 하는 데 도움이 됩니다. SceneScoringEngine은 모든 모듈 간의 결정을 조율합니다. 장면 유형 및 신뢰도 점수에 따라 모델 영향을 동적으로 조정하여, 여러 소스의 가중치 있는 통찰력을 반영하는 최종 출력을 생성합니다. 이 설정은 각 분석 엔진이 가장 잘하는 것에 집중하면서, 도구 계층에서 필요한 모든 지원을 끌어올 수 있도록 합니다. 나중에 새로운 유형의 장면 이해를 추가하고 싶다면, 기존 논리를 변경하거나 시스템을 망가뜨릴 위험 없이 새로운 모듈을 구축하기만 하면 됩니다. 3.4 조정 관리 계층: 파사드 계층 (시스템 신경 센터) 파사드 계층은 두 가지 핵심 조정자를 포함합니다. ComponentInitializer는 시스템 시작 시 구성 요소 초기화를 처리하고, SceneAnalysisCoordinator는 분석 워크플로우를 조율하며 데이터 흐름을 관리합니다. 이 두 조정자는 파사드(Facade) 디자인의 핵심 정신인 '외부의 단순함과 내부의 정밀함'을 구현합니다. 사용자는 깨끗한 입력 및 출력 지점과만 인터페이스하면 되며, 모든 복잡한 초기화 및 조정 논리는 뒤에서 적절히 처리됩니다. 3.5 통합 인터페이스 계층: SceneAnalyzer (단일 외부 게이트웨이) SceneAnalyzer는 전체 비전스카우트 시스템의 유일한 진입점 역할을 합니다. 이 구성 요소는 저의 핵심 설계 신념을 반영합니다. 내부 아키텍처가 아무리 정교하더라도, 외부 사용자는 단일하고 통합된 게이트웨이와만 상호작용해야 한다는 것입니다. 내부적으로 SceneAnalyzer는 모든 조정 논리를 캡슐화하여 요청을 적절한 모듈 및 하위 도구로 라우팅합니다. 입력을 표준화하고, 오류를 관리하며, 출력을 포맷하여 모든 클라이언트 애플리케이션에 깨끗하고 안정적인 인터페이스를 제공합니다. 이 계층은 시스템 복잡성의 최종 정수를 나타내며, 밑에 깔린 복잡한 네트워크를 숨기면서 간소화된 접근을 제공합니다. 이 게이트웨이를 설계함으로써, 비전스카우트가 아무리 계속 진화하더라도 강력하면서도 사용하기 쉽게 만들 수 있었습니다. 3.6 처리 엔진 계층: 프로세서 계층 (이중 실행 엔진) 실제 사용 워크플로우에서 ImageProcessor와 VideoProcessor는 시스템이 진정으로 작업을 시작하는 곳을 나타냅니다. 이 두 프로세서는 입력 데이터(이미지 또는 비디오)를 처리하고 적절한 분석 파이프라인을 실행하는 역할을 합니다. ImageProcessor는 정적 이미지 입력에 중점을 두며, 객체 탐지, 장면 분류, 조명 평가, 의미론적 해석을 통합된 출력으로 제공합니다. VideoProcessor는 이 기능을 비디오 분석으로 확장하여, 비디오 프레임 전반의 객체 존재 패턴과 탐지 빈도를 분석해 시간적 통찰력을 제공합니다. 사용자 관점에서 보면, 이곳은 결과가 생성되는 진입점입니다. 하지만 시스템 설계 관점에서, 프로세서 계층은 모든 아키텍처 계층이 함께 작동하는 최종 구성을 반영합니다. 이 프로세서들은 이전에 구축된 논리, 도구 및 모델을 캡슐화하여, 사용자가 내부 복잡성을 관리할 필요 없이 실제 애플리케이션에 일관된 인터페이스를 제공합니다. 3.7 애플리케이션 인터페이스 계층: 애플리케이션 계층 마지막으로, 애플리케이션 계층은 시스템의 프레젠테이션 계층 역할을 하며, 기술적 기능과 사용자 경험을 연결합니다. 여기에는 스타일링 및 시각적 일관성을 처리하는 Style과 사용자 상호 작용 및 인터페이스 동작을 관리하는 UIManager가 포함됩니다. 이 계층은 모든 기본 기능이 깨끗하고 직관적이며 접근 가능한 인터페이스를 통해 제공되도록 보장하여, 시스템을 강력할 뿐만 아니라 사용하기 쉽게 만듭니다. 4. 결론 실제 개발 과정을 통해, 많은 문제가 모델 성능이 아닌, 불분명한 모듈 경계와 결함 있는 설계 가정에 뿌리를 두고 있다는 것을 깨달았습니다. 중복되는 책임과 구성 요소 간의 긴밀한 결합은 종종 예상치 못한 간섭으로 이어져 시스템을 유지보수하거나 확장하기 점점 더 어렵게 만들었습니다. SceneScoringEngine을 예로 들어보겠습니다. 저는 처음에 모델 출력을 집계하기 위해 고정된 논리를 적용했는데, 특정 경우에 편향된 장면 판단을 야기했습니다. 추가 조사를 통해, 다른 모델들이 장면 맥락에 따라 다른 역할을 해야 한다는 것을 발견했습니다. 이에 대응하여, 맥락적 신호에 따라 모델 기여도를 조정하는 동적 가중치 조정 메커니즘을 구현하여 시스템이 적시에 적절한 정보를 더 잘 활용할 수 있도록 했습니다. 이 과정은 효과적인 아키텍처가 단순히 모듈을 연결하는 것 이상을 요구한다는 것을 보여주었습니다. 진정한 가치는 시스템이 동작 면에서 예측 가능하고 시간이 지나도 적응할 수 있도록 보장하는 데 있습니다. 책임의 명확한 분리와 구조적 유연성 없이는, 잘 작성된 기능도 시스템이 진화함에 따라 장애물이 될 수 있습니다. 결국, 더 깊은 이해에 도달했습니다. 기능적 코드를 짜는 것은 거의 어려운 부분이 아닙니다. 진정한 도전은 새로운 요구에 따라 우아하게 성장하는 시스템을 설계하는 데 있습니다. 이는 문제를 올바르게 추상화하고, 정확한 모듈 경계를 정의하며, 설계 선택이 장기적인 시스템 동작에 어떻게 영향을 미칠지 예측하는 능력을 요구합니다. 📖 멀티모달 AI 시스템 설계 시리즈 이 글은 초기 설계 개념부터 주요 아키텍처 변화에 이르기까지, 제가 멀티모달 AI 시스템을 구축하는 방식에 접근한 과정을 탐구하는 시리즈의 시작을 알립니다. 다음 편에서는 기술적 핵심에 대해 더 깊이 파고들 것입니다. 모델들이 어떻게 함께 작동하는지, 의미론적 이해가 어떻게 구조화되는지, 그리고 핵심 의사 결정 구성 요소 뒤에 숨겨진 설계 논리 등에 대해서 말이죠. 읽어주셔서 감사합니다. 비전스카우트를 개발하면서 멀티모달 AI 아키텍처와 시스템 설계의 기술에 대해 많은 귀중한 교훈을 얻었습니다. 논의하고 싶은 관점이나 주제가 있다면, 언제든 아이디어를 교환할 기회를 환영합니다. 🙌 VisionScout GitHub | VisionScout 데모 PawMatchAI GitHub | PawMatchAI 데모 💻 GitHub 📧 이메일 참고 자료 및 추가 읽을거리 핵심 기술 YOLOv8: Ultralytics. (2023). YOLOv8: 실시간 객체 탐지 및 인스턴스 분할. CLIP: Radford, A., et al. (2021). 자연어 감독으로부터 전이 가능한 시각적 표현 학습. ICML 2021. Places365: Zhou, B., et al. (2017). Places: 장면 인식을 위한 1천만 이미지 데이터베이스. IEEE TPAMI. Llama 3.2: Meta AI. (2024). Llama 3.2: 멀티모달 및 경량 모델. 작성자 에릭 정 에릭 정의 모든 글 보기 주제: 심층 분석, 딥러닝, 머신러닝, 멀티모달리티, TechForLife 이 기사 공유하기: 페이스북 공유 링크드인 공유 X 공유

•2025년 6월 20일•조회 0

구글 딥마인드, AI 음악 창작의 새 지평 열다: '뮤직FX DJ'와 '드림 트랙' 공개

구글 딥마인드는 새로운 생성형 AI 도구들을 통해 음악 창작의 문을 활짝 열었습니다. 2024년 10월 23일 젠미디어 음악팀에 의해 발표된 이 혁신적인 도구들은 2025년 5월 1일부터 구글 딥마인드의 최신 음악 생성 모델인 Lyria와 Lyria RealTime을 기반으로 구동됩니다. 이제 MusicFX DJ, Music AI Sandbox, 그리고 유튜브 쇼츠에서 이 최첨단 AI 음악 기술을 경험할 수 있습니다. 딥마인드 팀은 지난 10년간 AI가 창작 과정을 어떻게 지원할 수 있을지 탐구하며, 아마추어부터 전문가까지 모두가 새로운 형태의 창의적 표현을 발견할 수 있는 도구를 개발해왔습니다. 특히 지난 한 해 동안 Music AI Incubator를 통해 음악 산업 파트너들과 긴밀히 협력하며 최첨단 생성형 음악 실험을 진행했으며, 모든 사람이 책임감 있게 음악 창작에 참여할 수 있도록 지원했습니다. 오늘, 구글 랩스와의 협력을 통해 누구나 실시간으로 상호작용하며 쉽게 음악을 생성할 수 있도록 재설계된 'MusicFX DJ' 경험을 공개합니다. 또한, 음악 AI 툴킷인 'Music AI Sandbox'의 업데이트를 발표하고, 크리에이터가 쇼츠 및 동영상에 고품질 악기 음악을 생성할 수 있도록 돕는 유튜브의 실험 모음인 '드림 트랙'에도 최신 AI 음악 기술을 적용했습니다.'뮤직FX DJ'로 라이브 음악 생성: 올해 I/O에서 구글은 마치 악기를 연주하듯 누구나 라이브 음악을 창작할 수 있도록 돕는 디지털 도구인 '뮤직FX DJ'의 초기 버전을 공개했습니다. 오늘, 딥마인드는 '뮤직FX DJ'에 확장된 직관적인 컨트롤, 재설계된 인터페이스, 향상된 오디오 품질 및 새로운 모델 동작을 포함한 여러 업데이트를 선보입니다. 이 기능들을 통해 사용자는 끊김 없는 음악 흐름을 생성하고 조종하며, 친구들과 창작물을 공유하고 함께 즉흥 연주를 즐길 수 있습니다. 6회 그래미 수상에 빛나는 싱어송라이터이자 프로듀서, 멀티 악기 연주자인 제이콥 콜리어와의 긴밀한 협력을 통해, '뮤직FX DJ'는 더욱 접근하기 쉽고 유용하며 영감을 주는 도구로 발전했습니다. 기존 트랙을 믹싱하는 전통적인 DJ 도구와 달리, '뮤직FX DJ'는 사용자가 텍스트 프롬프트를 조합하여 완전히 새로운 음악을 생성하는 방식입니다. 사용자는 좋아하는 장르, 악기, 분위기를 결합해 새로운 스타일을 만들고, 라이브 DJ 세션을 즉흥 연주하거나, 프로덕션에 활용할 새로운 멜로디, 음색, 리듬을 탐색할 수 있습니다. '뮤직FX DJ'는 전통 악기는 아니지만, 라이브 음악 창작에 대한 접근성이 높고 표현력이 풍부한 진입점입니다. 음악적 경험 유무와 관계없이, '뮤직FX DJ'는 직관적인 컨트롤을 통해 사용자에게 독특하고 끊임없이 진화하는 음악적 사운드스케이프를 생성하고 조종할 수 있는 권한을 부여합니다. 제이콥 콜리어는 이를 "끝없이 놀라우며, 본질적으로는 전혀 어울리지 않을 것 같은 것들 사이의 연결을 연금술처럼 만들어내는 실시간 음향 점토와 같다"고 표현했습니다. '뮤직FX DJ'의 기반에는 두 가지 새로운 접근 방식이 있습니다. 첫째, 오프라인 생성형 음악 모델을 실시간 스트리밍에 최적화했습니다. 이는 이전에 생성된 음악과 사용자의 텍스트 프롬프트를 기반으로 다음 음악 클립을 예측하고 생성하도록 훈련함으로써 가능해졌습니다. 둘째, 일반적인 텍스트-음악 모델이 단일 고정 프롬프트를 사용하는 것과 달리, '뮤직FX DJ'는 여러 텍스트 프롬프트를 혼합하고 그 혼합 비율을 시간 경과에 따라 변경할 수 있는 기능을 제공합니다. 이 모델은 각 프롬프트의 표현(임베딩)을 사용자가 슬라이더로 조절하는 상대적 중요도와 결합하여 음악 스타일을 제어합니다.더욱 직관적인 컨트롤 구축: 제이콥 콜리어와의 협력을 통해 딥마인드는 초보자에게도 직관적이며 실험을 장려하고, 텍스트 프롬프트만으로는 얻기 어려운 다양한 창의적 표현을 가능하게 하는 전용 컨트롤을 개발했습니다. '뮤직FX DJ'의 새로운 컨트롤을 통해 사용자는 악기 구성을 지휘하고, 베이스, 드럼 등 특정 악기를 제거하거나 추가하여 쉽게 브레이크다운이나 베이스 드롭을 만들 수 있습니다. 또한 음악의 밝고 어두움, 반복성 또는 무작위성, 부드럽거나 거친 질감 등 다양한 측면을 조절할 수 있습니다. 키와 템포 조절도 가능하여 기존 음악과 함께 연주하거나 다른 사람들과 확장된 잼 세션을 즐기기 더욱 용이해졌습니다. 딥마인드 팀은 '뮤직FX DJ'를 전통 악기와 함께 사용하는 것을 즐겼으며, 사용자들의 새로운 창작물에 대한 기대가 큽니다. 전문가 수준의 사운드 품질: 협업 과정에서 딥마인드는 사용자가 모델 출력을 영감의 원천이자 대규모 작곡의 일부로 활용할 수 있는 방안을 모색했습니다. 초기 모델은 전문적인 오디오 품질에 미치지 못했지만, 신경 오디오 코덱과 최적화된 네트워크 아키텍처 등 오디오 연구팀의 최신 혁신 덕분에 '뮤직FX DJ'는 이제 48kHz 스테레오 오디오를 실시간으로 스트리밍할 수 있게 되었습니다. 오디오 공유 및 다운로드: 제이콥 콜리어가 다른 아티스트 및 청중과의 창의적 협업을 강조한 것에 영감을 받아, 딥마인드는 '뮤직FX DJ'로 만든 음악을 더 쉽게 공유하고 상호작용할 수 있도록 했습니다. 이제 사용자들은 '뮤직FX DJ' 오디오를 최대 60초까지 다운로드하고 친구들과 세션을 공유할 수 있습니다. 친구들은 연주 재생을 시청하거나 언제든지 컨트롤을 넘겨받아 음악을 완전히 새로운 방향으로 이끌 수 있습니다.확장된 '뮤직 AI 샌드박스' 툴킷: '뮤직 AI 샌드박스'는 유튜브의 Music AI Incubator를 통해 딥마인드와 협력하는 음악가, 프로듀서, 작곡가들의 워크플로우를 강화하기 위한 실험적인 음악 AI 도구 모음입니다. 이 도구는 딥마인드의 최신 생성형 음악 도구에 대한 다양한 아티스트, 작곡가 및 음악 산업 파트너로부터 피드백을 수집하는 귀중한 테스트베드 역할을 해왔습니다. '뮤직 AI 샌드박스'는 현재 일반에 공개되어 있지는 않지만, 성공적인 요소들은 향후 구글 제품에 통합될 예정입니다. 올해 I/O에서 '뮤직 AI 샌드박스'를 공개한 이후, 딥마인드는 사용자 경험 개선 및 예술 커뮤니티와의 대규모 피드백 수집을 위해 구글의 기술 및 사회 팀과 긴밀히 협력해왔습니다. 이러한 노력은 도구 모음의 기반이 되는 모델에 상당한 업데이트를 가져왔습니다. 곧, 신뢰할 수 있는 테스터들은 노래를 스케치하고 멀티트랙 뷰를 사용하여 정밀한 컨트롤로 작곡을 구성하고 다듬을 수 있게 될 것입니다. 이 새로운 '뮤직 AI 샌드박스' 버전은 '뮤직FX DJ'를 구동하는 모델을 포함한 최신 기술과 루프 생성, 사운드 변환, 인페인팅 등 인기 기능을 통합하여 사용자가 음악 트랙의 부분을 원활하게 연결할 수 있도록 지원합니다.유튜브 '드림 트랙' 실험, 이제 악기 사운드트랙 생성: 구글은 유튜브와의 지속적인 협력을 통해 미국 크리에이터들이 강력한 텍스트-음악 모델로 악기 사운드트랙을 생성하고 다양한 장르와 프롬프트를 탐색할 수 있도록 '드림 트랙' 실험을 발전시켰습니다. 딥마인드의 최신 음악 생성 모델은 강화 학습 접근 방식으로 훈련되어 더 높은 오디오 품질을 제공하며, 사용자 텍스트 프롬프트의 미묘한 뉘앙스를 더욱 잘 반영합니다. 생성형 기술을 책임감 있게 배포하는 것은 딥마인드의 핵심 가치이므로, '뮤직FX DJ'와 '드림 트랙'으로 생성된 모든 음악에는 SynthID를 사용하여 디지털 워터마크가 적용됩니다. 함께 만드는 음악 창작의 미래: 지난 한 해 동안 딥마인드는 음악 커뮤니티 파트너들과 협력하여 전문가의 요구를 충족시키면서도 차세대 음악가들에게 접근성을 확대하는 기술을 구축하게 되어 기뻤다고 밝혔습니다. 딥마인드는 이러한 파트너십을 더욱 심화하고 창의성을 고취할 더 나은 도구를 개발하며 음악 창작의 미래를 함께 만들어 나갈 것을 기대합니다. 이 프로젝트는 Andrea Agostinelli, Zalán Borsos, George Brower 등 수많은 핵심 연구 및 엔지니어링 팀의 노력으로 가능했습니다. 특히 '뮤직FX DJ'는 Antoine Caillon, Noah Constant, Jesse Engel 등이 구글 랩스 파트너들과 협력하여 개발했으며, 제이콥 콜리어, 벤 블룸버그, 프랜 해인코트 등에게 귀중한 피드백을 받았습니다. '뮤직 AI 샌드박스'는 Andrea Agostinelli, George Brower 등이 유튜브 및 기술 및 사회 팀과 협력하여 개발했으며, '드림 트랙'은 Andrea Agostinelli, Zalán Borsos 등이 유튜브 파트너들과 협력하여 개발했습니다. Aäron van den Oord, Tom Hume, Douglas Eck, Eli Collins, Mira Lane, Koray Kavukcuoglu, Demis Hassabis 등의 통찰력 있는 지도와 지원, 그리고 Mahyar Bordbar, DY Kim, YouTube Artist Partnerships 팀의 노력에도 감사를 표했습니다. 출처: 딥마인드 블로그

•2025년 6월 20일•조회 0

알파칩: AI가 반도체 칩 설계 혁신을 이끌다

과학 알파칩, 컴퓨터 칩 설계의 판도를 바꾸다 2024년 9월 26일 발행 저자: 안나 골디, 아잘리아 미르호세이니 공유 구글 딥마인드의 AI 방법론 '알파칩'은 칩 설계를 가속화하고 최적화하여, 인간 능가하는 칩 레이아웃을 만들어냈으며 이는 전 세계 하드웨어에 적용되고 있습니다. 2020년, 우리는 새로운 강화 학습 기반 칩 레이아웃 설계 방법론을 소개하는 사전 논문을 발표했으며, 이 논문은 이후 네이처(Nature)에 게재되고 오픈소스화되었습니다. 오늘 우리는 네이처 추가 논문을 통해 우리의 방법론과 칩 설계 분야에 미친 영향에 대해 더 자세히 설명합니다. 또한 사전 학습된 체크포인트와 모델 가중치를 공개하며, 이 모델의 이름을 '알파칩(AlphaChip)'으로 공식 발표합니다. 컴퓨터 칩은 인공지능(AI) 분야에서 놀라운 발전을 이끌었으며, 이제 알파칩은 AI를 사용하여 칩 설계를 가속화하고 최적화함으로써 그 역할을 다하고 있습니다. 이 방법론은 지난 3세대 구글 맞춤형 AI 가속기인 텐서 처리 장치(TPU)의 인간 능가 칩 레이아웃 설계에 활용되었습니다. 알파칩은 실제 공학 문제를 해결하는 데 적용된 최초의 강화 학습 접근 방식 중 하나입니다. 이는 인간의 수주 또는 수개월이 소요되던 칩 레이아웃 작업을 몇 시간 만에 인간을 능가하거나 그에 준하는 수준으로 생성하며, 이렇게 설계된 레이아웃은 데이터센터부터 휴대폰에 이르기까지 전 세계 칩에 사용되고 있습니다.“알파칩의 획기적인 AI 접근 방식은 칩 설계의 핵심 단계를 혁신합니다.” – SR 차이, 미디어텍 수석 부사장알파칩 작동 원리 칩 레이아웃 설계는 결코 간단한 작업이 아닙니다. 컴퓨터 칩은 수많은 상호 연결된 블록과 회로 부품 층으로 구성되며, 이 모든 요소는 극도로 얇은 전선으로 연결됩니다. 동시에 충족되어야 할 복잡하고 다양한 설계 제약 조건도 많습니다. 이러한 엄청난 복잡성 때문에 칩 설계자들은 60년 이상 칩 플로어플래닝(회로 배치) 프로세스 자동화에 난항을 겪어왔습니다. 바둑, 체스, 쇼기를 마스터한 알파고(AlphaGo)와 알파제로(AlphaZero)와 유사하게, 딥마인드는 칩 플로어플래닝을 일종의 게임으로 접근하도록 알파칩을 구축했습니다. 알파칩은 빈 그리드에서 시작하여 모든 구성 요소를 배치할 때까지 한 번에 하나의 회로 구성 요소를 배치합니다. 이후 최종 레이아웃의 품질에 따라 보상을 받습니다. 새로운 ‘엣지 기반’ 그래프 신경망은 알파칩이 상호 연결된 칩 구성 요소 간의 관계를 학습하고 칩 전반에 걸쳐 일반화할 수 있도록 지원하며, 이를 통해 알파칩은 설계하는 각 레이아웃마다 성능을 개선할 수 있습니다.왼쪽: 알파칩이 사전 경험 없이 오픈소스 아리안 RISC-V CPU를 배치하는 애니메이션. 오른쪽: 알파칩이 20개의 TPU 관련 설계를 연습한 후 동일한 블록을 배치하는 애니메이션.AI를 활용한 구글 AI 가속기 칩 설계 알파칩은 2020년 발표 이후 구글 TPU의 모든 세대에 적용되어 인간 능가 칩 레이아웃을 생성했습니다. 이 칩들은 구글의 트랜스포머 아키텍처 기반 AI 모델을 대규모로 확장하는 데 기여합니다. TPU는 제미니(Gemini)와 같은 대규모 언어 모델부터 이미지 및 비디오 생성기인 이마젠(Imagen), 베오(Veo)에 이르기까지 구글의 강력한 생성형 AI 시스템의 핵심입니다. 이러한 AI 가속기는 구글 AI 서비스의 핵심이며, 구글 클라우드를 통해 외부 사용자에게도 제공됩니다.구글 데이터센터에 있는 클라우드 TPU v5p AI 가속기 슈퍼컴퓨터 열.TPU 레이아웃 설계를 위해 알파칩은 먼저 온칩 및 칩 간 네트워크 블록, 메모리 컨트롤러, 데이터 전송 버퍼 등 이전 세대의 다양한 칩 블록을 학습합니다. 이 과정을 사전 학습(pre-training)이라고 합니다. 그런 다음 알파칩을 현재 TPU 블록에 적용하여 고품질 레이아웃을 생성합니다. 이전 접근 방식과 달리, 알파칩은 인간 전문가처럼 칩 배치 작업을 더 많이 수행할수록 성능이 향상되고 속도가 빨라집니다. 최신 트릴리움(Trillium, 6세대)을 포함한 각 새로운 세대의 TPU에서 알파칩은 더 나은 칩 레이아웃을 설계하고 전체 플로어플랜의 더 많은 부분을 담당하여 설계 주기를 단축하고 고성능 칩 생산에 기여했습니다.구글 텐서 처리 장치(TPU)의 세 가지 세대(v5e, v5p, 트릴리움)에 걸쳐 알파칩이 설계한 칩 블록 수를 보여주는 막대그래프.알파칩의 평균 와이어 길이 감소율을 TPU 물리 설계 팀이 생성한 배치와 비교하여 구글 텐서 처리 장치(TPU)의 세 가지 세대에 걸쳐 보여주는 막대그래프.알파칩의 광범위한 영향 알파칩의 영향은 알파벳(Alphabet) 내 적용 사례뿐만 아니라 연구 커뮤니티, 그리고 칩 설계 산업 전반에서 광범위하게 확인되고 있습니다. TPU와 같은 특수 AI 가속기 설계 외에도, 알파칩은 구글의 첫 번째 Arm 기반 범용 데이터센터 CPU인 구글 액시온 프로세서(Google Axion Processors)와 같은 알파벳 내 다른 칩들의 레이아웃 설계에도 활용되었습니다. 외부 기관들도 알파칩을 채택하고 이를 기반으로 기술을 발전시키고 있습니다. 예를 들어, 세계 최고의 칩 설계 회사 중 하나인 미디어텍(MediaTek)은 알파칩을 확장하여 전력 효율, 성능 및 칩 면적(PPA)을 개선하며 가장 진보된 칩 개발을 가속화했습니다.“알파칩은 AI를 이용한 칩 설계 연구의 폭발적인 증가를 촉발했으며, 논리 합성 및 매크로 선택과 같은 칩 설계의 다른 중요한 단계로 확장되었습니다.”“알파칩은 칩 설계를 위한 강화 학습에 대한 완전히 새로운 연구 분야를 촉발시켰으며, 논리 합성부터 플로어플래닝, 타이밍 최적화 등에 이르는 설계 흐름 전반에 걸쳐 영향을 미치고 있습니다.” – 시드하르트 가르그 교수, NYU 탠던 공과대학미래 칩의 청사진 우리는 알파칩이 컴퓨터 아키텍처부터 제조에 이르기까지 칩 설계 주기의 모든 단계를 최적화하고, 스마트폰, 의료 장비, 농업 센서 등 일상 기기에 사용되는 맞춤형 하드웨어 칩 설계를 혁신할 잠재력을 가지고 있다고 믿습니다. 알파칩의 미래 버전은 현재 개발 중이며, 이 분야를 지속적으로 혁신하고 칩이 더욱 빠르고 저렴하며 전력 효율적일 미래를 만들어가기 위해 커뮤니티와 협력할 예정입니다.2024년 추가 논문 읽기 2021년 논문 읽기 2020년 사전 논문 읽기 사전 학습 튜토리얼 보기감사의 글 우리의 훌륭한 공동 저자들께 깊이 감사드립니다: 무스타파 야즈간, 조 웬지에 장, 에브라힘 송호리, 션 왕, 이영준, 에릭 존슨, 옴카르 파탁, 아자데 나지, 박지우, 앤디 통, 카비야 스리니바사, 윌리엄 행, 엠레 툰서, 쿼크 V. 르, 제임스 로든, 리처드 호, 로저 카펜터, 제프 딘. 특히 이 생산적 영향을 지속적으로 이끌어주신 조 웬지에 장, 에브라힘 송호리, 이영준, 로저 카펜터, 세르지오 과다라마께 감사드립니다. 연구 조언과 멘토링을 해주신 쿼크 V. 르와 깊이 있는 기술 토론 및 지원을 해주신 선임 저자 제프 딘께도 감사드립니다. 또한 모든 조언과 지원을 해주신 에드 치, 주빈 가흐라마니, 코레이 카부쿠오글루, 데이브 패터슨, 크리스 매닝께도 감사드립니다. 출처: 딥마인드 블로그

•2025년 6월 20일•조회 0

행렬 곱셈 완전 정복: X-다이어그램으로 배우는 직관적 의미와 특수 행렬

수학 행렬의 이해 | 2부: 행렬 곱셈 두 행렬을 곱하는 물리적 의미와 여러 특수 행렬에 어떻게 적용되는지 알아봅니다. 티그란 하이라페티안 2025년 6월 19일 15분 독서 이 이미지는 저자의 요청에 따라 디자인되고 준비되었습니다. 이 시리즈의 첫 번째 글 [1]에서는 다음 내용을 다루었습니다: * 벡터와 행렬의 곱셈, * 주어진 행렬에 대한 X-다이어그램 개념 소개, * 여러 특수 행렬이 벡터와 곱해질 때의 동작 관찰. 이번 두 번째 글에서는 행렬-행렬 곱셈의 물리적 의미를 파악하고, 곱셈이 왜 대칭 연산이 아닌지(즉, 왜 “A*B ≠ B*A”인지), 그리고 마지막으로 여러 특수 행렬들이 서로 곱해질 때 어떻게 동작하는지 살펴보겠습니다. 시작하기 전에, 이 시리즈 전반에 걸쳐 사용하는 정의를 다시 떠올려 보겠습니다: * 행렬은 대문자(‘A’와 ‘B’ 등)로 표기하고, 벡터와 스칼라는 소문자(‘x’, ‘y’ 또는 ‘m’, ‘n’ 등)로 표기합니다. * |x| – 벡터 ‘x’의 길이, * rows(A) – 행렬 ‘A’의 행 수, * columns(A) – 행렬 ‘A’의 열 수. 행렬 곱셈의 개념 두 행렬 “A”와 “B”의 곱셈은 행렬 분석에서 가장 흔한 연산 중 하나입니다. “A”와 “B”는 “columns(A) = rows(B)”일 때만 곱할 수 있다는 것은 잘 알려진 사실입니다. 동시에 “A”는 몇 개의 행이든 가질 수 있고, “B”는 몇 개의 열이든 가질 수 있습니다. 곱셈 행렬 “C = A*B”의 각 셀은 다음 공식으로 계산됩니다: \[ \begin{equation*} c_{i,j} = \sum_{k=1}^{p} a_{i,k}*b_{k,j} \end{equation*} \] 여기서 “p = columns(A) = rows(B)”입니다. 결과 행렬 “C”는 다음 차원을 가집니다: * rows(C) = rows(A), * columns(C) = columns(B). 곱셈 공식에 따라 “A*B”를 계산할 때, “A”의 i번째 행을 “B”의 j번째 열과 동시에 스캔해야 하며, 모든 곱셈 결과 “ai,k*bk,j”를 합산하면 “ci,j” 값을 얻게 됩니다. 곱셈 행렬 “C = A*B”의 셀 “ci,j”를 계산하기 위해 스캔해야 할 행과 열. 여기서는 “A”의 3번째 행과 “B”의 2번째 열을 스캔하여 “c3,2” 값을 얻습니다. 행렬 곱셈이 대칭 연산이 아니라는, 즉 “A*B ≠ B*A”라는 또 다른 잘 알려진 사실이 있습니다. 자세한 내용은 생략하고, 두 직사각형 행렬을 곱할 때 이미 이러한 사실을 알 수 있습니다: 크기가 각각 2×4와 4×2인 두 행렬 “A”와 “B”. “A*B”를 곱하면 2×2 크기의 행렬이 되고, “B*A”를 곱하면 4×4 크기의 행렬이 됩니다. 강조된 영역은 스캔 방향을 보여줍니다 – “A*B”의 한 셀을 계산하기 위한 빨간색 영역, “B*A”의 한 셀을 계산하기 위한 녹색 영역. 초보자들에게 행렬 곱셈이 대칭 연산이 아니라는 사실은 종종 이상하게 들립니다. 거의 모든 다른 객체에 대해 정의된 곱셈은 대칭 연산이기 때문입니다. 또 다른 종종 불분명한 사실은 행렬 곱셈이 왜 그렇게 이상한 공식으로 수행되는가입니다. 이 글에서는 이 두 질문뿐만 아니라 다른 질문에도 답을 제시할 것입니다… 행렬 곱셈 공식의 유도 “A*B”를 곱하면 다음과 같은 행렬 ‘C’가 생성되어야 합니다: y = C*x = (A*B)*x = A*(B*x). 다시 말해, 곱셈 행렬 “C=A*B”에 어떤 벡터 ‘x’를 곱해도, 먼저 ‘B’에 ‘x’를 곱한 다음 그 중간 결과에 ‘A’를 곱했을 때와 동일한 벡터 ‘y’가 나와야 합니다. 이는 “C=A*B”에서 “columns(A) = rows(B)” 조건이 유지되어야 하는 이유를 이미 설명합니다. 이는 중간 벡터의 길이 때문입니다. 이를 ‘t’라고 표시해 보겠습니다: t = B*x, y = C*x = (A*B)*x = A*(B*x) = A*t. 분명히 “t = B*x”이므로, 우리는 “|t| = rows(B)” 길이를 가진 벡터 ‘t’를 얻게 됩니다. 그러나 나중에 행렬 ‘A’는 ‘t’와 곱해질 것이고, 이는 ‘t’가 “|t| = columns(A)” 길이를 가져야 함을 요구합니다. 이 두 사실로부터 우리는 다음을 추론할 수 있습니다: rows(B) = |t| = columns(A), 또는 rows(B) = columns(A). 이 시리즈의 첫 번째 글 [1]에서 우리는 행렬-벡터 곱셈 “A*x”의 “X-방식 해석”을 배웠습니다. “y = (A*B)x”의 경우, 벡터 ‘x’가 먼저 행렬 ‘B’의 변환을 거친 다음 행렬 ‘A’의 변환을 계속 거친다는 점을 고려하면, “X-방식 해석”의 개념을 확장하여 행렬-행렬 곱셈 “A*B”를 2개의 인접한 X-다이어그램으로 표현할 수 있습니다: 벡터 ‘x’(오른쪽 스택)가 곱셈 행렬 “C=A*B”를 통해 오른쪽에서 왼쪽으로 변환되는 과정. 먼저 행렬 ‘B’를 통과하여 중간 벡터 ‘t’가 생성되고(중간 스택), 그 다음 ‘t’가 ‘A’의 변환을 통과하여 최종 벡터 ‘y’가 생성됩니다(왼쪽 스택). 이제 행렬 ‘C’의 특정 셀 “ci,j”는 무엇과 같아야 할까요? 1부 – “행렬-벡터 곱셈” [1]에서 우리는 “ci,j”의 물리적 의미가 – 입력 값 ‘xj’가 출력 값 ‘yi’에 얼마나 영향을 미치는지 – 라는 것을 기억합니다. 위 그림을 고려하여, 어떤 입력 값 ‘xj’가 어떤 다른 출력 값 ‘yi’에 어떻게 영향을 미칠 수 있는지 살펴보겠습니다. 이는 중간 값 ‘t1’을 통해, 즉 화살표 “ai,1”과 “b1,j”를 통해 영향을 미칠 수 있습니다. 또한, 중간 값 ‘t2’를 통해, 즉 화살표 “ai,2”와 “b2,j”를 통해 영향을 미칠 수 있습니다. 일반적으로, ‘xj’가 ‘yi’에 미치는 영향은 중간 벡터 ‘t’의 어떤 값 ‘tk’를 통해서도 발생할 수 있으며, 즉 화살표 “ai,k”와 “bk,j”를 통해 발생합니다. 입력 값 ‘x2’가 출력 값 ‘y3’에 영향을 미칠 수 있는 모든 가능한 방법을 보여주는 그림. 영향은 중간 값 ‘t1’(”a3,1*b1,2”로), 중간 값 ‘t2’(”a3,2*b2,2”로), 또는 중간 벡터 ‘t’의 다른 k번째 값(”a3,k*bk,2”로)을 통해 발생할 수 있습니다. 여기서는 4가지 가능한 방법이 모두 빨간색으로 강조되어 있습니다. 따라서 값 ‘xj’가 ‘yi’에 영향을 미칠 수 있는 ‘p’가지 방법이 있으며, 여기서 ‘p’는 중간 벡터의 길이입니다: “p = |t| = |B*x|”. 그 영향은 다음과 같습니다: \[\begin{equation*} \begin{matrix} a_{i,1}*b_{1,j}, \\ a_{i,2}*b_{2,j}, \\ a_{i,3}*b_{3,j}, \\ \dots \\ a_{i,p}*b_{p,j} \end{matrix} \end{equation*}\] 이 모든 ‘p’가지 영향은 서로 독립적이며, 이것이 행렬 곱셈 공식에서 합으로 참여하는 이유입니다: \[\begin{equation*} c_{i,j} = a_{i,1}*b_{1,j} + a_{i,2}*b_{2,j} + \dots + a_{i,p}*b_{p,j} = \sum_{k=1}^{p} a_{i,k}*b_{k,j} \end{equation*}\] 이것이 행렬-행렬 곱셈 공식에 대한 저의 시각적 설명입니다. 그건 그렇고, “A*B”를 “A”와 “B”의 X-다이어그램의 연결로 해석하는 것은 “columns(A) = rows(B)” 조건이 왜 유지되어야 하는지를 명확하게 보여줍니다. 그렇지 않으면 두 X-다이어그램을 연결할 수 없기 때문입니다: “columns(C) ≠ rows(D)”인 두 행렬 “C”와 “D”를 곱하려고 시도하는 경우. 이들의 X-다이어그램은 서로 일치하지 않아 연결될 수 없습니다. “A*B ≠ B*A”인 이유 행렬 곱셈 “A*B”를 “A”와 “B”의 X-다이어그램 연결로 해석하는 것은 곱셈이 행렬에 대해 왜 대칭적이지 않은지, 즉 왜 “A*B ≠ B*A”인지를 설명합니다. 두 특정 행렬을 통해 이를 보여드리겠습니다: \[\begin{equation*} A = \begin{bmatrix} 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ a_{3,1} & a_{3,2} & a_{3,3} & a_{3,4} \\ a_{4,1} & a_{4,2} & a_{4,3} & a_{4,4} \end{bmatrix} ,\ \ B = \begin{bmatrix} b_{1,1} & b_{1,2} & 0 & 0 \\ b_{2,1} & b_{2,2} & 0 & 0 \\ b_{3,1} & b_{3,2} & 0 & 0 \\ b_{4,1} & b_{4,2} & 0 & 0 \end{bmatrix} \end{equation*}\] 여기서 행렬 ‘A’는 상반부가 0으로 채워져 있고, ‘B’는 오른쪽 절반이 0입니다. 해당하는 X-다이어그램은 다음과 같습니다: 위에 언급된 행렬 “A”와 “B”에 해당하는 X-다이어그램. 0 셀의 경우 해당 화살표는 그리지 않습니다. ‘A’의 상위 행에 0이 있다는 사실은 왼쪽 스택의 상위 항목이 연결이 끊어졌음을 의미합니다. ‘B’의 오른쪽 열에 0이 있다는 사실은 오른쪽 스택의 하위 항목이 연결이 끊어졌음을 의미합니다. “A*B”를 곱하려고 하면 어떻게 될까요? 그러면 A의 X-다이어그램이 B의 X-다이어그램 왼쪽에 배치되어야 합니다. “A*B”에 해당하는 “A”와 “B”의 X-다이어그램 연결. 실제로 서로 영향을 미칠 수 있는 4쌍의 왼쪽 및 오른쪽 항목이 있습니다. 예시 쌍 (y3, x1)이 강조되어 있습니다. 이러한 배치에서는 입력 값 ‘x1’과 ‘x2’가 출력 값 ‘y3’와 ‘y4’ 모두에 영향을 미칠 수 있음을 알 수 있습니다. 특히, 이는 곱셈 행렬 “A*B”가 0이 아님을 의미합니다. \[ \begin{equation*} A*B = \begin{bmatrix} 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ c_{3,1} & c_{3,2} & 0 & 0 \\ c_{4,1} & c_{4,2} & 0 & 0 \end{bmatrix} \end{equation*} \] 이제 이 두 행렬을 반대 순서로 곱하려고 하면 어떻게 될까요? 곱셈 “B*A”를 나타내려면 B의 X-다이어그램이 A의 다이어그램 왼쪽에 그려져야 합니다: 곱셈 “B*A”에 해당하는 “B”와 “A”의 X-다이어그램 연결. 이는 두 개의 분리된 부분으로 이어지므로, 오른쪽 스택의 어떤 항목 ‘xj’도 왼쪽 스택의 어떤 항목 ‘yi’에 영향을 미칠 방법이 없습니다. 이제 어떤 입력 값 “xj”도 어떤 출력 값 “yi”에 영향을 미칠 수 있는 연결된 경로가 없음을 알 수 있습니다. 다시 말해, 곱셈 행렬 “B*A”에는 전혀 영향이 없으며, 실제로는 0 행렬입니다. \[\begin{equation*} B*A = \begin{bmatrix} 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{bmatrix} \end{equation*}\] 이 예시는 행렬-행렬 곱셈에서 순서가 왜 중요한지를 명확하게 보여줍니다. 물론, 다른 많은 예시도 생각해 볼 수 있습니다. 행렬의 체인 곱셈 3개 이상의 행렬을 곱할 때도 X-다이어그램을 연결할 수 있습니다. 예를 들어, 다음의 경우: G = A*B*C, 다음과 같은 방식으로 연결을 그릴 수 있습니다: 행렬 “A”, “B”, “C”에 해당하는 3개의 X-다이어그램 연결. 행렬의 크기는 각각 4×3, 3×2, 2×4입니다. 2개의 중간 벡터 ‘t’와 ‘s’는 연두색과 청록색 항목으로 표시됩니다. 여기에는 이제 2개의 중간 벡터가 있습니다: t = C*x, 그리고 s = (B*C)*x = B*(C*x) = B*t 결과 벡터는 다음과 같습니다: y = (A*B*C)*x = A*(B*(C*x)) = A*(B*t) = A*s. 여기서 어떤 입력 값 “xj”가 어떤 출력 값 “yi”에 영향을 미칠 수 있는 가능한 방법의 수는 기하급수적으로 증가합니다. 입력 값 “x1”이 출력 값 “y3”에 영향을 미칠 수 있는 6가지 방법 중 두 가지가 빨간색과 연한 파란색으로 강조되어 있습니다. 더 정확히 말하면, 특정 “xj”가 “yi”에 미치는 영향은 첫 번째 중간 스택 “t”의 어떤 항목과 두 번째 중간 스택 “s”의 어떤 항목을 통해서도 올 수 있습니다. 따라서 영향 방법의 수는 “|t|*|s|”가 되며, “gi,j” 공식은 다음과 같습니다: \[\begin{equation*} g_{i,j} = \sum_{v=1}^{|s|} \sum_{u=1}^{|t|} a_{i,v}*b_{v,u}*c_{u,j} \end{equation*}\] 특수 유형 행렬의 곱셈 이제 행렬-행렬 곱셈을 시각적으로 해석할 수 있습니다. 이 시리즈의 첫 번째 글 [1]에서는 스케일 행렬, 시프트 행렬, 순열 행렬 등 여러 특수 유형의 행렬에 대해서도 배웠습니다. 이제 이러한 유형의 행렬에 대해 곱셈이 어떻게 작동하는지 살펴보겠습니다. 스케일 행렬의 곱셈 스케일 행렬은 대각선에만 0이 아닌 값을 가집니다: 4×4 스케일 행렬의 X-다이어그램. 모든 입력 항목 “xi”는 해당하는 출력 항목 “yi”에만 영향을 미칠 수 있습니다. 이론에 따르면 두 스케일 행렬을 곱하면 또 다른 스케일 행렬이 됩니다. 왜 그럴까요? 두 스케일 행렬의 X-다이어그램을 연결해 보겠습니다: 두 스케일 행렬 “Q”와 “S”의 곱셈을 X-다이어그램 연결로 표현한 것. 연결된 X-다이어그램은 어떤 입력 항목 “xi”도 여전히 해당하는 출력 항목 “yi”에만 영향을 미칠 수 있음을 명확하게 보여줍니다. 다른 출력 항목에 영향을 미칠 방법이 없습니다. 따라서 결과 구조는 다른 스케일 행렬과 동일하게 동작합니다. 시프트 행렬의 곱셈 시프트 행렬은 입력 벡터 ‘x’에 곱해질 때 ‘x’의 값을 ‘k’ 위치만큼 위 또는 아래로 이동시키고, 비워진 슬롯을 0으로 채우는 행렬입니다. 이를 달성하려면 시프트 행렬 ‘V’는 주 대각선에 평행한 선에 1을 가져야 하고, 다른 모든 셀에는 0을 가져야 합니다. 시프트 행렬 ‘V’와 그 X-다이어그램의 예시. 이 행렬은 입력 벡터 ‘x’의 모든 값을 2칸 위로 이동시킵니다. 이론에 따르면 두 시프트 행렬 ‘V1’과 ‘V2’를 곱하면 또 다른 시프트 행렬이 됩니다. X-다이어그램을 통한 해석은 이에 대한 명확한 설명을 제공합니다. 시프트 행렬 ‘V1’과 ‘V2’를 곱하는 것은 그들의 X-다이어그램을 연결하는 것과 같습니다: 두 시프트 행렬 ‘V1’과 ‘V2’의 X-다이어그램 연결은 또 다른 시프트 행렬처럼 동작합니다. 입력 벡터 ‘x’의 모든 값이 여전히 특정 위치만큼 위로 이동되기 때문입니다. 시프트 행렬 ‘V1’이 입력 벡터의 값을 ‘k1’ 위치만큼 위로 이동시키고, 시프트 행렬 ‘V2’가 입력 벡터의 값을 ‘k2’ 위치만큼 위로 이동시킨다면, 결과 행렬 “V3 = V1*V2”는 입력 벡터의 값을 ‘k1+k2’ 위치만큼 위로 이동시킬 것이며, 이는 “V3” 또한 시프트 행렬임을 의미합니다. 순열 행렬의 곱셈 순열 행렬은 입력 벡터 ‘x’에 곱해질 때 ‘x’의 값 순서를 재배열하는 행렬입니다. 그렇게 동작하려면 NxN 크기의 순열 행렬 ‘P’는 다음 기준을 만족해야 합니다: * N개의 1을 가져야 합니다. * 두 개의 1이 같은 행이나 같은 열에 있어서는 안 됩니다. * 나머지 모든 셀은 0이어야 합니다. 5×5 크기의 순열 행렬 ‘P’와 해당 X-다이어그램의 예시. 입력 벡터 “(x1, x2, x3, x4, x5)”의 값이 “(x4, x1, x5, x3, x2)”로 재배열되는 것을 볼 수 있습니다. 이론에 따르면 두 순열 행렬 ‘P1’과 ‘P2’를 곱하면 또 다른 순열 행렬 ‘P3’가 됩니다. 일반적인 방식(‘P1’의 행과 ‘P2’의 열을 스캔하는 방식)으로 행렬 곱셈을 본다면 그 이유가 명확하지 않을 수 있지만, X-다이어그램 해석을 통해 보면 훨씬 명확해집니다. “P1*P2”를 곱하는 것은 ‘P1’과 ‘P2’의 X-다이어그램을 연결하는 것과 같습니다. 순열 행렬 ‘P1’과 ‘P2’의 X-다이어그램 연결은 값의 또 다른 재배열처럼 동작합니다. 오른쪽 스택의 모든 입력 값 ‘xj’가 왼쪽 스택의 다른 위치 ‘yi’에 도달하는 경로가 여전히 하나뿐임을 알 수 있습니다. 따라서 “P1*P2”는 여전히 입력 벡터 ‘x’의 모든 값을 재배열하는 역할을 하며, 다시 말해 “P1*P2”도 순열 행렬입니다. 삼각 행렬의 곱셈 삼각 행렬은 주 대각선 위 또는 아래에 모든 0을 가집니다. 여기서는 주 대각선 아래에 0이 있는 상삼각 행렬에 집중하겠습니다. 하삼각 행렬의 경우는 유사합니다. 상삼각 행렬 ‘B’와 그 X-다이어그램의 예시. ‘B’의 0이 아닌 값들이 주 대각선 상 또는 그 위에 있다는 사실은 X-다이어그램의 모든 화살표가 수평이거나 위쪽으로 향하게 만듭니다. 이는 결과적으로 오른쪽 스택의 어떤 입력 값 ‘xj’도 인덱스가 작거나 같은(즉, “i ≤ j”) 왼쪽 스택의 출력 값 ‘yi’에만 영향을 미칠 수 있음을 의미합니다. 이는 상삼각 행렬의 속성 중 하나입니다. 이론에 따르면 두 상삼각 행렬을 곱하면 또 다른 상삼각 행렬이 됩니다. 여기에서도 X-다이어그램을 통한 해석이 그 사실에 대한 명확한 설명을 제공합니다. 두 상삼각 행렬 ‘A’와 ‘B’를 곱하는 것은 그들의 X-다이어그램을 연결하는 것과 같습니다: 두 상삼각 행렬 ‘A’와 ‘B’의 X-다이어그램 연결. 두 삼각 행렬 ‘A’와 ‘B’의 X-다이어그램을 나란히 놓으면, 오른쪽 스택의 모든 입력 값 ‘xj’가 여전히 자신의 레벨 또는 그 위에 있는(즉, “i ≤ j”) 왼쪽 스택의 출력 값 ‘yi’에만 영향을 미칠 수 있는 다이어그램이 생성됨을 알 수 있습니다. 이는 곱셈 “A*B”도 상삼각 행렬처럼 동작한다는 의미이며, 따라서 주 대각선 아래에 0을 가져야 합니다. 결론 이 시리즈의 현재 2번째 글에서는 행렬-행렬 곱셈이 소위 “X-다이어그램”의 도움으로 시각적으로 어떻게 표현될 수 있는지 살펴보았습니다. “C = A*B” 곱셈을 수행하는 것이 이 두 행렬의 X-다이어그램을 연결하는 것과 같다는 것을 배웠습니다. 이 방법은 행렬 곱셈의 다양한 속성, 예를 들어 왜 대칭 연산이 아닌지(“A*B ≠ B*A”)를 명확하게 보여주며, 다음 공식을 설명합니다: \[\begin{equation*} c_{i,j} = \sum_{k=1}^{p} a_{i,k}*b_{k,j} \end{equation*}\] 또한 피연산자가 특수 유형의 행렬(스케일, 시프트, 순열, 삼각 행렬)일 때 곱셈이 특정 방식으로 동작하는 이유를 살펴보았습니다. 이 글을 즐겁게 읽으셨기를 바랍니다! 다음 글에서는 행렬 전치 “AT”가 X-다이어그램으로 어떻게 해석될 수 있는지, 그리고 그러한 해석을 통해 무엇을 얻을 수 있는지 다룰 예정이니, 업데이트를 놓치지 않으려면 제 페이지를 구독해 주세요! 저의 감사: – 초안을 꼼꼼히 검토해 준 Roza Galstyan (https://www.linkedin.com/in/roza-galstyan-a54a8b352) – 사용된 모든 삽화를 정밀하게 디자인해 준 Asya Papyan (https://www.behance.net/asyapapyan). 이 글을 즐겁게 읽으셨다면, LinkedIn에서 저를 팔로우해 주세요. 다른 내용 외에도 업데이트를 게시할 예정입니다 (https://www.linkedin.com/in/tigran-hayrapetyan-cs/). 명시되지 않는 한, 사용된 모든 이미지는 저자의 요청에 따라 디자인되었습니다. 참고 문헌 [1] – 행렬의 이해 | 1부: 행렬-벡터 곱셈 : https://towardsdatascience.com/understanding-matrices-part-1-matrix-vector-multiplication/ 작성자 티그란 하이라페티안 티그란 하이라페티안의 모든 글 보기 주제: 대수학, 선형대수학, 행렬, 행렬 곱셈, 벡터 이 기사 공유하기: 페이스북에 공유 LinkedIn에 공유 X에 공유

•2025년 6월 20일•조회 0

AWS ETL 워크플로우, 이제는 쉽다: 구성부터 오케스트레이션까지

데이터 엔지니어링 구성부터 오케스트레이션까지: AWS ETL 워크플로우 구축, 더 이상 어렵지 않다 AWS 서비스 활용을 통한 효율적인 데이터 파이프라인 자동화 단계별 가이드 지아얀 인 | 2025년 6월 19일 | 7분 독서 이미지 출처: Greg Rakozy, Unsplash AWS는 초기 시장 진입, 강력한 기술력, 그리고 포괄적인 서비스 제공을 바탕으로 클라우드 산업에서 32%라는 압도적인 점유율을 유지하며 선두를 달리고 있습니다. 하지만 많은 사용자들이 AWS 탐색에 어려움을 겪고 있으며, 이러한 불만은 더 많은 기업과 조직이 경쟁사인 Microsoft Azure 및 Google Cloud Platform을 선호하게 만드는 요인이 되기도 합니다. 가파른 학습 곡선과 다소 덜 직관적인 인터페이스에도 불구하고, AWS는 뛰어난 안정성, 하이브리드 클라우드 지원, 그리고 가장 방대한 서비스 옵션 덕분에 여전히 최고의 클라우드 서비스로 평가받고 있습니다. 더욱이, 적절한 전략을 선택하면 구성의 복잡성을 크게 줄이고 워크플로우를 간소화하며 성능을 향상시킬 수 있습니다. 이 글에서는 저의 경험을 바탕으로 AWS에서 오케스트레이션 기능을 포함한 완벽한 ETL 파이프라인을 효율적으로 설정하는 방법을 소개합니다. 이 가이드는 AWS를 통한 데이터 생산에 대한 새로운 시각을 제시하거나, AWS 초보자라도 구성 작업의 어려움을 덜어줄 것입니다. 효율적인 데이터 파이프라인 설계를 위한 전략 AWS는 방대한 서비스로 가장 포괄적인 생태계를 구축하고 있습니다. AWS에서 프로덕션 환경에 적합한 데이터 웨어하우스를 구축하려면 최소한 다음 서비스들이 필요합니다: IAM – 이 서비스는 워크플로우 자체에 직접 포함되지는 않지만, 다른 모든 AWS 서비스에 접근하기 위한 필수 기반 역할을 합니다. AWS S3 – 데이터 레이크 스토리지 AWS Glue – ETL 처리 Amazon Redshift – 데이터 웨어하우스 CloudWatch – 모니터링 및 로깅 또한, 오류 처리와 더 복잡한 의존성 스케줄링 및 고급 재시도를 수행해야 할 경우 Apache Airflow에 대한 접근이 필요합니다. 물론 Redshift도 일부 기본적인 크론 작업을 처리할 수 있습니다. 작업 효율성을 높이기 위해 IDE(Visual Studio Code 또는 PyCharm 등 선호하는 IDE) 설치를 강력히 권장합니다. IDE는 복잡한 Python 코드 작성, 로컬 테스트/디버깅, 버전 관리 통합 및 팀 협업의 효율성을 극적으로 향상시켜 줍니다. 다음 섹션에서는 단계별 구성 방법을 제공합니다. 초기 설정 다음은 초기 구성 단계입니다: IDE에서 가상 환경 실행 종속성 설치 – 기본적으로 나중에 사용될 라이브러리를 설치해야 합니다. pip install apache-airflow==2.7.0 boto3 pandas pyspark sqlalchemy AWS CLI 설치 – 이 단계를 통해 다양한 AWS 작업을 자동화하는 스크립트를 작성하고 AWS 리소스를 보다 효율적으로 관리할 수 있습니다. AWS 구성 – 프롬프트가 나타나면 다음 IAM 사용자 자격 증명을 입력해야 합니다: AWS 액세스 키 ID (IAM 사용자에서 획득), AWS 시크릿 액세스 키 (IAM 사용자에서 획득), 기본 리전 (예: us-east-1 또는 선호하는 리전), 기본 출력 형식 (json). Airflow 통합 – 다음 단계는 다음과 같습니다: Airflow 초기화, Airflow에 DAG 파일 생성, http://localhost:8080에서 웹 서버 실행 (로그인: admin/admin), 그리고 다른 터미널 탭을 열고 스케줄러 시작. export AIRFLOW_HOME=$(pwd)/airflow airflow db init airflow users create \ --username admin \ --password admin \ --firstname Admin \ --lastname User \ --role Admin \ --email [email protected] #Airflow 초기화 airflow webserver --port 8080 ##웹 서버 실행 airflow scheduler #스케줄러 시작 개발 워크플로우: COVID-19 데이터 사례 연구 데모 목적으로 JHU의 공개 COVID-19 데이터셋(CC BY 4.0 라이선스)을 사용합니다. 데이터는 여기에서 참조할 수 있습니다. 아래 차트는 개발 환경에서 데이터 수집부터 Redshift 테이블로의 데이터 로딩까지의 워크플로우를 보여줍니다. 저자가 생성한 개발 워크플로우 데이터 수집 AWS S3로의 데이터 수집 첫 번째 단계에서 데이터를 롱 포맷으로 변환하고 날짜 형식을 변경하여 처리했습니다. 저장 효율성을 높이고 쿼리 성능을 향상시키며 저장 비용을 줄이기 위해 데이터를 Parquet 형식으로 저장했습니다. 이 단계의 코드는 다음과 같습니다: import pandas as pd from datetime import datetime import os import boto3 import sys def process_covid_data(): try: # 원시 데이터 로드 url = "https://github.com/CSSEGISData/COVID-19/raw/master/archived_data/archived_time_series/time_series_19-covid-Confirmed_archived_0325.csv" df = pd.read_csv(url) # --- 데이터 처리 --- # 1. 롱 포맷으로 변환 df = df.melt( id_vars=['Province/State', 'Country/Region', 'Lat', 'Long'], var_name='date_str', value_name='confirmed_cases' ) # 2. 날짜 변환 (JHU 형식: MM/DD/YY) df['date'] = pd.to_datetime( df['date_str'], format='%m/%d/%y', errors='coerce' ).dropna() # 3. 파티션된 Parquet으로 저장 output_dir = "covid_processed" df.to_parquet( output_dir, engine='pyarrow', compression='snappy', partition_cols=['date'] ) # 4. S3로 업로드 s3 = boto3.client('s3') total_files = 0 for root, _, files in os.walk(output_dir): for file in files: local_path = os.path.join(root, file) s3_path = os.path.join( 'raw/covid/', os.path.relpath(local_path, output_dir) ) s3.upload_file( Filename=local_path, Bucket='my-dev-bucket', Key=s3_path ) total_files += len(files) print(f"성공적으로 {total_files}개의 Parquet 파일 처리 및 업로드 완료") print(f"데이터 범위: {df['date'].min()} 부터 {df['date'].max()} 까지") return True except Exception as e: print(f"오류: {str(e)}", file=sys.stderr) return False if __name__ == "__main__": process_covid_data() Python 코드를 실행한 후, S3 버킷의 'raw/covid/' 폴더 아래에서 Parquet 파일을 확인할 수 있습니다. 저자의 스크린샷 ETL 파이프라인 개발 AWS Glue는 주로 ETL 파이프라인 개발에 사용됩니다. 데이터가 S3에 로드되지 않은 경우에도 데이터 수집에 사용할 수 있지만, S3에 데이터가 로드된 후 데이터 웨어하우징 목적으로 데이터를 처리하는 데 강점을 보입니다. 다음은 데이터 변환을 위한 PySpark 스크립트입니다: # transform_covid.py from awsglue.context import GlueContext from pyspark.sql.functions import * glueContext = GlueContext(SparkContext.getOrCreate()) df = glueContext.create_dynamic_frame.from_options( "s3", {"paths": ["s3://my-dev-bucket/raw/covid/"]}, format="parquet" ).toDF() # 여기에 변환 추가 df_transformed = df.withColumn("load_date", current_date()) # 처리된 영역에 쓰기 df_transformed.write.parquet( "s3://my-dev-bucket/processed/covid/", mode="overwrite" ) 저자의 스크린샷 다음 단계는 Redshift로 데이터를 로드하는 것입니다. Redshift 콘솔에서 왼쪽의 "쿼리 편집기 Q2"를 클릭하면 SQL 코드를 편집하고 Redshift COPY 작업을 완료할 수 있습니다. # dev 스키마에 covid_data 테이블 생성 CREATE TABLE dev.covid_data ( "Province/State" VARCHAR(100), "Country/Region" VARCHAR(100), "Lat" FLOAT8, "Long" FLOAT8, date_str VARCHAR(100), confirmed_cases FLOAT8 ) DISTKEY("Country/Region") SORTKEY(date_str); # Redshift로 데이터 COPY COPY dev.covid_data ( "Province/State", "Country/Region", "Lat", "Long", date_str, confirmed_cases ) FROM 's3://my-dev-bucket/processed/covid/' IAM_ROLE 'arn:aws:iam::your-account-id:role/RedshiftLoadRole' REGION 'your-region' FORMAT PARQUET; 그러면 데이터가 데이터 웨어하우스에 성공적으로 업로드된 것을 확인할 수 있습니다. 저자의 스크린샷 파이프라인 자동화 데이터 파이프라인을 자동화하는 가장 쉬운 방법은 Redshift 쿼리 편집기 v2에서 Stored Procedure를 생성하여 작업을 스케줄링하는 것입니다 (SQL Stored Procedure에 대한 자세한 소개는 이 글을 참조할 수 있습니다). CREATE OR REPLACE PROCEDURE dev.run_covid_etl() AS $$ BEGIN TRUNCATE TABLE dev.covid_data; COPY dev.covid_data FROM 's3://simba-dev-bucket/raw/covid' IAM_ROLE 'arn:aws:iam::your-account-id:role/RedshiftLoadRole' REGION 'your-region' FORMAT PARQUET; END; $$ LANGUAGE plpgsql; 저자의 스크린샷 대안으로, 스케줄링된 작업을 위해 Airflow를 실행할 수 있습니다. from datetime import datetime from airflow import DAG from airflow.providers.amazon.aws.operators.redshift_sql import RedshiftSQLOperator default_args = { 'owner': 'data_team', 'depends_on_past': False, 'start_date': datetime(2023, 1, 1), 'retries': 2 } with DAG( 'redshift_etl_dev', default_args=default_args, schedule_interval='@daily', catchup=False ) as dag: run_etl = RedshiftSQLOperator( task_id='run_covid_etl', redshift_conn_id='redshift_dev', sql='CALL dev.run_covid_etl()', ) 프로덕션 워크플로우 Airflow DAG는 복잡한 의존성을 가진 전체 ETL 파이프라인을 오케스트레이션하는 데 강력하며, 이는 프로덕션 환경에서도 좋은 관행입니다. ETL 파이프라인을 개발하고 테스트한 후, Airflow를 사용하여 프로덕션 환경에서 작업을 자동화할 수 있습니다. 저자가 생성한 프로덕션 워크플로우 다음은 Airflow에서 성공적인 배포를 돕기 위한 주요 준비 단계 체크리스트입니다: S3 버킷 my-prod-bucket 생성 AWS 콘솔에서 Glue 작업 prod_covid_transformation 생성 Redshift Stored Procedure prod.load_covid_data() 생성 Airflow 구성 airflow.cfg에서 이메일용 SMTP 구성 그러면 Airflow에서의 데이터 파이프라인 배포는 다음과 같습니다: from datetime import datetime, timedelta from airflow import DAG from airflow.operators.python import PythonOperator from airflow.providers.amazon.aws.operators.glue import GlueJobOperator from airflow.providers.amazon.aws.operators.redshift_sql import RedshiftSQLOperator from airflow.operators.email import EmailOperator # 1. DAG 구성 default_args = { 'owner': 'data_team', 'retries': 3, 'retry_delay': timedelta(minutes=5), 'start_date': datetime(2023, 1, 1) } # 2. 데이터 수집 함수 def load_covid_data(): import pandas as pd import boto3 url = "https://github.com/CSSEGISData/COVID-19/raw/master/archived_data/archived_time_series/time_series_19-covid-Confirmed_archived_0325.csv" df = pd.read_csv(url) df = df.melt( id_vars=['Province/State', 'Country/Region', 'Lat', 'Long'], var_name='date_str', value_name='confirmed_cases' ) df['date'] = pd.to_datetime(df['date_str'], format='%m/%d/%y') df.to_parquet( 's3://my-prod-bucket/raw/covid/', engine='pyarrow', partition_cols=['date'] ) # 3. DAG 정의 with DAG( 'covid_etl', default_args=default_args, schedule_interval='@daily', catchup=False ) as dag: # 작업 1: 데이터 수집 ingest = PythonOperator( task_id='ingest_data', python_callable=load_covid_data ) # 작업 2: Glue를 이용한 변환 transform = GlueJobOperator( task_id='transform_data', job_name='prod_covid_transformation', script_args={ '--input_path': 's3://my-prod-bucket/raw/covid/', '--output_path': 's3://my-prod-bucket/processed/covid/' } ) # 작업 3: Redshift로 로드 load = RedshiftSQLOperator( task_id='load_data', sql="CALL prod.load_covid_data()" ) # 작업 4: 알림 notify = EmailOperator( task_id='send_email', to='you-email-address', subject='ETL 상태: {{ ds }}', html_content='ETL 작업 완료: <a href="{{ ti.log_url }}">로그 보기</a>' ) 마지막 생각 일부 사용자, 특히 클라우드를 처음 접하고 간단한 솔루션을 찾는 사람들은 AWS의 높은 진입 장벽과 방대한 서비스 선택지에 압도당하는 경향이 있지만, 시간과 노력을 투자할 가치가 있으며 그 이유는 다음과 같습니다: 구성 과정과 데이터 파이프라인 설계, 구축, 테스트를 통해 일반적인 데이터 엔지니어링 워크플로우에 대한 깊은 이해를 얻을 수 있습니다. 이 기술은 Azure, GCP, Alibaba Cloud 등 다른 클라우드 서비스로 프로젝트를 수행하더라도 유용할 것입니다. AWS가 가진 성숙한 생태계와 방대한 서비스 배열은 사용자가 데이터 아키텍처 전략을 맞춤 설정하고 프로젝트에서 더 많은 유연성과 확장성을 확보할 수 있도록 합니다. 읽어주셔서 감사합니다! 이 기사가 클라우드 기반 데이터 파이프라인 구축에 도움이 되기를 바랍니다! 출처: Towards Data Science

•2025년 6월 20일•조회 0

PyTorch 기울기 심층 분석: 리프 텐서와 그라디언트의 비밀

머신러닝PyTorch 리프 텐서와 그라디언트(Grad)의 진정한 의미리프, 그라디언트, 그리고 강력한 requires_grad 플래그의 숨겨진 이야기마치에이 J. 미쿨스키2025년 6월 19일9분 독서공유하기(DALL-E로 저자가 생성한 이미지)이 글은 단순히 체인 룰(chain rule)을 다시 설명하는 것이 아닙니다. 오토그래드(autograd)의 기묘한 측면, 즉 그라디언트가 단순히 가중치뿐 아니라 물리학에도 어떻게 기여하는지에 대한 탐구입니다.저는 박사 과정 첫해 PyTorch에서 기울기 계산의 복잡성을 헤쳐나가며 이 튜토리얼을 스스로를 위해 작성했습니다. 대부분의 내용은 표준 역전파를 염두에 두고 설계되었으며, 이는 대부분의 사람들에게 필요한 것이므로 문제가 없습니다.하지만 물리 정보 신경망(PINN)은 특유의 변덕스러움으로 인해 다른 종류의 기울기 로직을 요구합니다. 저는 이 문제를 해결하는 데 시간을 보냈고, 그 발견을 커뮤니티, 특히 동료 PINN 실무자들과 공유할 가치가 있다고 생각했습니다. 누군가에게는 몇 가지 골칫거리를 덜어줄 수 있을 것입니다. 하지만 PINN에 대해 한 번도 들어본 적이 없더라도 걱정하지 마세요! 이 글은 여전히 여러분을 위한 것입니다. 특히 기울기의 기울기 같은 재미있는 것들에 관심이 있다면 더욱 그렇습니다.기본 용어컴퓨터 과학에서 텐서(Tensor)는 단순히 다차원 배열, 즉 하나 이상의 정수로 인덱싱되는 숫자들의 묶음을 의미합니다. 정확히 말하면, 단일 숫자인 0차원 텐서도 존재합니다. 어떤 사람들은 텐서를 2차원 이상으로 일반화한 행렬이라고 말하기도 합니다.일반 상대성 이론을 공부했다면 수학적 텐서에 공변(covariant) 및 반변(contravariant) 인덱스 같은 것이 있다는 말을 들어봤을 것입니다. 하지만 잊어버리세요. PyTorch에서 텐서는 그냥 다차원 배열일 뿐입니다. 복잡하게 생각할 필요 없습니다.리프 텐서(Leaf tensor)는 계산 그래프(computation graph)의 리프(그래프 이론의 의미에서)인 텐서입니다. 아래에서 이에 대해 자세히 살펴볼 것이므로 이 정의가 좀 더 명확해질 것입니다.텐서의 requires_grad 속성은 PyTorch에게 이 텐서가 이후 계산에서 어떻게 사용되는지 기억해야 하는지 알려줍니다. 현재로서는 requires_grad=True인 텐서를 변수로, requires_grad=False인 텐서를 상수로 생각하세요.리프 텐서몇 개의 텐서를 생성하고 그 속성인 requires_grad와 is_leaf를 확인해 봅시다.```pythonimport torcha = torch.tensor([3.], requires_grad=True)b = a * ac = torch.tensor([5.])d = c * cassert a.requires_grad is True and a.is_leaf is Trueassert b.requires_grad is True and b.is_leaf is Falseassert c.requires_grad is False and c.is_leaf is Trueassert d.requires_grad is False and d.is_leaf is True # 참고!del a, b, c, d```예상대로 a는 리프이고, b는 곱셈의 결과이므로 리프가 아닙니다. a는 기울기를 요구하도록 설정되었으므로, b는 자연스럽게 이 속성을 상속받습니다.c는 분명히 리프이지만, d는 왜 리프일까요? d.is_leaf가 True인 이유는 PyTorch의 특정 관습에서 비롯됩니다. PyTorch 문서에 따르면 requires_grad가 False로 설정된 모든 텐서는 관습적으로 리프 텐서로 간주됩니다.requires_grad가 False인 모든 텐서는 관습적으로 리프 텐서가 됩니다.수학적으로 d는 리프가 아니지만(c * c라는 다른 연산의 결과이므로), 기울기 계산은 결코 d를 넘어 확장되지 않을 것입니다. 다시 말해, c에 대한 미분은 없을 것입니다. 이것이 d를 리프로 처리할 수 있게 합니다.요약하자면, PyTorch에서 리프 텐서는 다음 중 하나입니다:- 직접 입력되고(즉, 다른 텐서에서 계산되지 않고) requires_grad=True인 경우. 예: 무작위로 초기화된 신경망 가중치.- 기울기를 전혀 요구하지 않는 경우. 직접 입력되었든 계산되었든 상관없습니다. 오토그래드의 관점에서 이들은 단순히 상수입니다. 예: 모든 신경망 입력 데이터, 평균 제거 또는 기타 연산 후의 입력 이미지 (기울기를 요구하지 않는 텐서만 포함).더 알고 싶은 분들을 위한 작은 주석: requires_grad 속성은 다음과 같이 상속됩니다.```pythona = torch.tensor([5.], requires_grad=True)b = torch.tensor([5.], requires_grad=True)c = torch.tensor([5.], requires_grad=False)d = torch.sin(a * b * c)assert d.requires_grad == any((x.requires_grad for x in (a, b, c)))```코드 주석: 모든 코드 스니펫은 독립적이어야 하며, 임포트 문은 처음 나타날 때만 포함합니다. 반복적인 코드를 최소화하기 위해 이후에는 생략합니다. 독자가 쉽게 처리할 수 있다고 믿습니다.기울기 보존 (Grad retention)별개의 중요한 문제는 기울기 보존입니다. 계산 그래프의 모든 노드, 즉 사용된 모든 텐서는 기울기를 요구하면 기울기가 계산됩니다. 그러나 오직 리프 텐서만이 이러한 기울기를 보존합니다. 이는 기울기가 일반적으로 텐서 업데이트에 사용되며, 훈련 중 업데이트 대상은 리프 텐서뿐이기 때문에 합리적인 설계입니다. 첫 번째 예시의 b와 같은 비-리프 텐서는 직접 업데이트되지 않습니다. a의 변화의 결과로 변화하므로 그 기울기는 버려질 수 있습니다. 그러나 특히 물리 정보 신경망(PINN)과 같은 시나리오에서는 이러한 중간 텐서의 기울기를 보존하고 싶을 수 있습니다. 그러한 경우, 비-리프 텐서가 기울기를 보존하도록 명시적으로 표시해야 합니다. 살펴보겠습니다:```pythona = torch.tensor([3.], requires_grad=True)b = a * ab.backward()assert a.grad is not Noneassert b.grad is None # 경고 발생```아마 다음과 같은 경고를 보셨을 겁니다:```UserWarning: 리프 텐서가 아닌 텐서의 .grad 속성에 접근하고 있습니다. autograd.backward() 실행 중에는 .grad 속성이 채워지지 않습니다. 리프 텐서가 아닌 텐서의 .grad 필드를 채우려면 해당 텐서에 .retain_grad()를 사용하십시오. 실수로 비-리프 텐서에 접근했다면, 대신 리프 텐서에 접근했는지 확인하십시오. 더 자세한 정보는 github.com/pytorch/pytorch/pull/30531를 참조하십시오. (aten c Ten/core/TensorBody.h:491에서 내부적으로 발생함)```그럼 b가 기울기를 보존하도록 강제하여 수정해 봅시다.```pythona = torch.tensor([3.], requires_grad=True)b = a * ab.retain_grad() # <- 차이점b.backward()assert a.grad is not Noneassert b.grad is not None```그라디언트의 미스터리이제 유명한 grad 자체를 살펴봅시다. 그것은 무엇일까요? 텐서일까요? 그렇다면 리프 텐서일까요? 기울기를 요구하거나 보존할까요?```pythona = torch.tensor([3.], requires_grad=True)b = a * ab.retain_grad()b.backward()assert isinstance(a.grad, torch.Tensor)assert a.grad.requires_grad is False and a.grad.retains_grad is False and a.grad.is_leaf is Trueassert b.grad.requires_grad is False and b.grad.retains_grad is False and b.grad.is_leaf is True```결론적으로:- grad 자체는 텐서입니다.- grad는 리프 텐서입니다.- grad는 기울기를 요구하지 않습니다.기울기를 보존할까요? 이 질문은 처음부터 기울기를 요구하지 않으므로 의미가 없습니다. grad가 리프 텐서인 문제로 잠시 후에 돌아오겠지만, 이제 몇 가지를 테스트해 볼 것입니다.다중 역전파와 retain_graph같은 기울기를 두 번 계산하면 어떻게 될까요?```pythona = torch.tensor([3.], requires_grad=True)b = a * ab.retain_grad()b.backward()try: b.backward()except RuntimeError: ''' RuntimeError: 그래프를 두 번 역전파하려고 시도하거나(또는 이미 해제된 저장된 텐서에 직접 접근하려고 시도). 그래프의 저장된 중간 값은 .backward() 또는 autograd.grad()를 호출할 때 해제됩니다. 그래프를 두 번 역전파해야 하거나 backward 호출 후 저장된 텐서에 접근해야 하는 경우 retain_graph=True를 지정하십시오. '''```오류 메시지가 모든 것을 명확히 설명합니다. 이것은 작동해야 합니다:```pythona = torch.tensor([3.], requires_grad=True)b = a * ab.retain_grad()b.backward(retain_graph=True)print(a.grad) # tensor([6.]) 출력b.backward(retain_graph=True)print(a.grad) # tensor([12.]) 출력b.backward(retain_graph=False)print(a.grad) # tensor([18.]) 출력# b.backward(retain_graph=False) # <- 여기서는 오류가 발생할 것입니다. 이전 호출에서 그래프를 보존하지 않았기 때문입니다.```(하지만 중요한) 부수적인 참고: 기울기가 a에 어떻게 누적되는지도 관찰할 수 있습니다. 각 반복마다 더해집니다.강력한 create_graph 인자grad가 grad를 요구하도록 만들려면 어떻게 해야 할까요?```pythona = torch.tensor([5.], requires_grad=True)b = a * ab.retain_grad()b.backward(create_graph=True)# 여기서 흥미로운 일이 일어납니다: 이제 a.grad가 기울기 계산을 요구할 것입니다!assert a.grad.requires_grad is Trueassert a.grad.is_leaf is False# 반면에 b의 grad는 이전과 마찬가지로 grad를 요구하지 않습니다.assert b.grad.requires_grad is Falseassert b.grad.is_leaf is True```위의 내용은 매우 유용합니다: 수학적으로 $\frac{\partial b}{\partial a}$인 a.grad는 더 이상 상수(리프)가 아니라, 계산 그래프의 일반적인 구성원이 되어 추가로 사용될 수 있습니다. 이 사실은 2부에서 사용할 것입니다.왜 b.grad는 grad를 요구하지 않을까요? b에 대한 b의 미분은 단순히 1이기 때문입니다.backward가 지금 직관적이지 않게 느껴지더라도 걱정하지 마세요. 곧 미분의 재료를 정확히 선택할 수 있는 grad라는 다른 방법을 사용할 것입니다. 그 전에 두 가지 부수적인 참고 사항:부수적인 참고 1: create_graph를 True로 설정하면 retain_graph도 True로 자동 설정됩니다(명시적으로 설정되지 않은 경우). PyTorch 코드에서는 정확히 다음과 같습니다:```if retain_graph is None: retain_graph = create_graph```부수적인 참고 2: 다음과 같은 경고를 보셨을 것입니다:```UserWarning: create_graph=True와 함께 backward()를 사용하면 매개변수와 그 기울기 사이에 참조 순환이 생성되어 메모리 누수를 유발할 수 있습니다. 이를 피하기 위해 그래프를 생성할 때는 autograd.grad 사용을 권장합니다. 이 함수를 사용해야 한다면, 순환을 끊고 누수를 방지하기 위해 사용 후 매개변수의 .grad 필드를 None으로 재설정하십시오. (C:\cb\pytorch_1000000000000\work\torch\csrc\autograd\engine.cpp:1156에서 내부적으로 발생함) Variable._execution_engine.run_backward( # C++ 엔진을 호출하여 역전파를 실행합니다```그리고 우리는 이 조언을 따라 이제 autograd.grad를 사용할 것입니다.autograd.grad 함수로 미분하기이제 다소 높은 수준의 .backward() 메서드에서, 한 텐서에 대한 다른 텐서의 미분을 명시적으로 계산하는 낮은 수준의 grad 메서드로 넘어가 봅시다.```from torch.autograd import grada = torch.tensor([3.], requires_grad=True)b = a * a * adb_da = grad(b, a, create_graph=True)[0]assert db_da.requires_grad is True```backward와 마찬가지로, a에 대한 b의 미분은 함수로 취급되어 추가로 미분될 수 있습니다. 즉, create_graph 플래그는 다음과 같이 이해할 수 있습니다: 기울기를 계산할 때, 해당 기울기가 어떻게 계산되었는지 이력을 유지하여, 기울기를 grad를 요구하는 비-리프 텐서로 취급하고 추가적인 미분 계산에 활용할 수 있도록 합니다.특히, 2차 미분을 계산할 수 있습니다:```d2b_da2 = grad(db_da, a, create_graph=True)[0]# 부수적인 참고: grad 함수는 튜플을 반환하며, 그 첫 번째 요소가 우리가 필요한 것입니다.assert d2b_da2.item() == 18assert d2b_da2.requires_grad is True```이전에 언급했듯이: 이것이 바로 PyTorch로 PINN을 구현할 수 있게 하는 핵심 속성입니다.결론대부분의 PyTorch 기울기 튜토리얼은 고전적인 지도 학습의 역전파에 중점을 둡니다. 이 글은 고전적인 역전파를 넘어, PINN을 비롯한 고차 미분을 요구하는 '특수한 경우'의 필요에 의해 형성된 관점을 탐구했습니다.우리는 PyTorch 생태계에서 리프 텐서의 의미, 기울기가 기본적으로 리프 노드에만 보존되는 이유, 그리고 다른 텐서에 기울기 보존이 필요할 때 이를 처리하는 방법을 학습했습니다. create_graph가 기울기를 오토그래드 세계의 미분 가능한 구성원으로 어떻게 바꾸는지 보았습니다.하지만 아직 밝혀낼 것이 많습니다. 특히 비-스칼라 함수의 기울기가 왜 추가적인 주의를 요구하는지, 전체 RAM을 사용하지 않고 2차 미분을 효율적으로 계산하는 방법, 그리고 요소별 기울기가 필요할 때 입력 텐서를 슬라이싱하는 것이 왜 비효율적인지 등이 남아있습니다.그러니 2부에서 다시 만나, grad의 심층적인 활용법을 더 자세히 살펴보겠습니다 👋마치에이 J. 미쿨스키주제: 편집자 추천, 물리 정보 신경망, Python, Pytorch, 텐서이 기사 공유하기:Facebook으로 공유LinkedIn으로 공유X로 공유출처: Towards Data Science출처: Towards Data Science

•2025년 6월 20일•조회 0

LLM 심사위원: AI 모델 평가의 새 기준, 실용 가이드와 한계점

## LLM 심사위원: AI 모델 평가의 새 기준, 실용 가이드와 한계점 ### LLM 심사위원: 실용 가이드 #### 수동 검토를 넘어선 LLM 평가 확장 방법 슈아이 궈 2025년 6월 19일 16분 소요 ChatGPT 이미지 LLM 기반 기능을 구축해 본 사람이라면 평가가 얼마나 중요한지 이미 알고 있을 것입니다. 모델이 무언가를 말하게 하는 것은 쉽지만, 그것이 올바른 것을 말하는지 파악하는 것이 진정한 도전입니다. 소수의 테스트 케이스에서는 수동 검토가 잘 작동합니다. 그러나 예시의 수가 증가하면 수동 검사는 빠르게 비실용적이 됩니다. 대신, 확장 가능하고 자동화된 무언가가 필요합니다. 바로 BLEU, ROUGE, METEOR와 같은 지표들이 등장하는 지점입니다. 이들은 빠르고 저렴하지만, 토큰 중첩을 검사하여 표면적인 부분만 다룹니다. 효과적으로 말하면, 이 지표들은 두 텍스트가 유사하게 보이는지 여부를 알려줄 뿐, 반드시 같은 의미를 갖는지 여부를 알려주지는 않습니다. 이러한 의미론적 이해의 부족은 개방형 작업을 평가하는 데 있어 안타깝게도 매우 중요합니다. 그래서 아마도 궁금할 것입니다. 인간 평가의 깊이와 자동화의 확장성을 결합한 방법이 있을까요? 여기에 LLM 심사위원이 등장합니다. 이 글에서는 최근 주목받고 있는 이 접근 방식을 자세히 살펴보겠습니다. 구체적으로 다음 내용을 탐구합니다: * 무엇이며, 왜 중요하게 여겨야 하는가 * 어떻게 효과적으로 작동시키는가 * 그 한계와 대처 방법 * 도구 및 실제 사례 연구 마지막으로, LLM 평가 파이프라인에 적용할 수 있는 핵심 요약으로 마무리하겠습니다. ### 1. LLM 심사위원이란 무엇이며, 왜 중요하게 여겨야 하는가? 이름에서 알 수 있듯이, LLM 심사위원은 기본적으로 하나의 LLM을 사용하여 다른 LLM의 작업을 평가하는 것입니다. 마치 인간 평가자에게 상세한 평가 기준을 제공하여 제출물을 채점하게 하는 것처럼, LLM 심사위원에게 특정 기준을 제공하여 어떤 콘텐츠든 구조화된 방식으로 평가할 수 있게 합니다. 그렇다면 이 접근 방식을 사용하는 이점은 무엇일까요? 다음은 주목할 만한 주요 이점들입니다: * **쉽게 확장되고 빠르게 실행됩니다.** LLM은 어떤 인간 평가자보다 훨씬 빠르게 방대한 양의 텍스트를 처리할 수 있습니다. 이를 통해 신속하게 반복하고 철저하게 테스트할 수 있으며, 이 두 가지는 LLM 기반 제품 개발에 매우 중요합니다. * **비용 효율적입니다.** 평가에 LLM을 사용하면 수동 작업이 극적으로 줄어듭니다. 이는 품질 평가가 필요하지만 광범위한 인간 검토를 위한 자원이 부족한 소규모 팀이나 초기 단계 프로젝트에 혁신을 가져옵니다. * **단순한 지표를 넘어 뉘앙스를 포착합니다.** 이것이 가장 설득력 있는 장점 중 하나입니다. LLM 심사위원은 응답의 깊고 질적인 측면을 평가할 수 있습니다. 이는 풍부하고 다각적인 평가의 문을 엽니다. 예를 들어, 다음과 같은 것을 확인할 수 있습니다: 답변이 정확하고 사실에 근거하는가(사실적 정확성)? 사용자 질문에 충분히 답변하는가(관련성 및 완전성)? 응답이 논리적이고 일관성 있게 흐르는가(일관성)? 응답이 적절하고, 유해하지 않으며, 공정한가(안전성 및 편향)? 또는 의도한 페르소나와 일치하는가(스타일 및 어조)? * **일관성을 유지합니다.** 인간 평가자는 시간이 지남에 따라 해석, 주의 또는 기준이 달라질 수 있습니다. 반면, LLM 심사위원은 항상 동일한 규칙을 적용합니다. 이는 장기적인 개선 사항을 추적하는 데 필수적인 반복 가능한 평가를 촉진합니다. * **설명 가능합니다.** 이 접근 방식을 매력적으로 만드는 또 다른 요소입니다. LLM 심사위원을 사용하여 평가할 때, 단순한 결정뿐만 아니라 그 결정에 도달하는 데 사용된 논리적 추론을 출력하도록 요청할 수 있습니다. 이러한 설명 가능성 덕분에 결과를 쉽게 감사하고 LLM 심사위원 자체의 효과를 검토할 수 있습니다. 이 시점에서 다음과 같이 질문할 수 있습니다. LLM에게 다른 LLM을 채점하도록 요청하는 것이 정말 효과가 있을까요? 모델이 스스로 숙제를 채점하도록 내버려 두는 것 아닌가요? 놀랍게도, 지금까지의 증거는 신중하게 수행한다면 효과가 있다는 것을 보여줍니다. 다음에서는 LLM 심사위원 접근 방식을 실제로 효과적으로 작동시키는 방법에 대한 기술적 세부 사항을 논의해 보겠습니다. ### 2. LLM 심사위원 작동시키기 LLM 심사위원 시스템을 이해하기 위한 간단한 개념 모델은 다음과 같습니다: 그림 1. LLM 심사위원 시스템의 개념 모델 (저자 이미지) 먼저 심사위원 LLM을 위한 프롬프트를 구성합니다. 이는 기본적으로 무엇을 어떻게 심사할지에 대한 상세한 지침입니다. 또한, 사용할 LLM을 선택하고 온도, 최대 토큰 수 등 모델 매개변수를 설정하는 등 모델을 구성해야 합니다. 주어진 프롬프트와 구성에 따라, 응답(또는 여러 응답)을 제시받으면 심사위원 LLM은 수치 점수(예: 1-5점 척도), 비교 순위(예: 여러 응답을 나란히 최고에서 최악으로 순위 매기기), 또는 텍스트 비평(예: 응답이 좋거나 나쁜 이유에 대한 개방형 설명)과 같은 다양한 유형의 평가 결과를 생성할 수 있습니다. 일반적으로 한 가지 유형의 평가만 수행되며, 이는 심사위원 LLM의 프롬프트에 명시되어야 합니다. 논란의 여지는 있지만, 시스템의 핵심은 프롬프트입니다. 프롬프트가 평가의 품질과 신뢰성을 직접적으로 결정하기 때문입니다. 이제 이에 대해 자세히 살펴보겠습니다. #### 2.1 프롬프트 설계 프롬프트는 범용 LLM을 유용한 평가자로 바꾸는 핵심입니다. 프롬프트를 효과적으로 작성하려면 다음 여섯 가지 질문을 스스로에게 던져보세요. 이 질문에 대한 답변이 최종 프롬프트의 구성 요소가 될 것입니다. 하나씩 살펴보겠습니다: **질문 1: LLM 심사위원은 누구여야 합니까?** 단순히 LLM에게 “무언가를 평가하라”고 지시하는 대신, 구체적인 전문가 역할을 부여하십시오. 예를 들어: “당신은 기술 지원 품질 보증 분야에서 10년 경력을 가진 선임 고객 경험 전문가입니다.” 일반적으로 역할이 구체적일수록 평가 관점이 더 좋습니다. **질문 2: 정확히 무엇을 평가하고 있습니까?** 심사위원 LLM에게 평가하고자 하는 콘텐츠 유형을 알려주십시오. 예를 들어: “우리 전자상거래 플랫폼을 위한 AI 생성 제품 설명.” **질문 3: 어떤 품질 측면에 관심이 있습니까?** 심사위원 LLM이 평가할 기준을 정의하십시오. 사실 정확성, 유용성, 일관성, 어조, 안전성 또는 다른 무엇을 평가하고 있습니까? 평가 기준은 애플리케이션의 목표와 일치해야 합니다. 예를 들어: [GPT-4o가 생성한 예시] “사용자 질문에 대한 관련성 및 회사의 어조 지침 준수 여부에 따라 응답을 평가하십시오.” 3-5가지 측면으로 제한하십시오. 그렇지 않으면 초점이 흐려질 수 있습니다. **질문 4: 심사위원은 응답에 어떻게 점수를 매겨야 합니까?** 프롬프트의 이 부분은 LLM 심사위원의 평가 전략을 설정합니다. 필요한 통찰력의 종류에 따라 다른 방법을 사용할 수 있습니다: * **단일 출력 점수 매기기:** 심사위원에게 각 평가 기준에 대해 일반적으로 1에서 5 또는 1에서 10까지의 척도로 응답에 점수를 매기도록 요청하십시오. “각 품질 측면에 대해 이 응답을 1-5점 척도로 평가하십시오.” * **비교/순위 매기기:** 심사위원에게 두 개(또는 그 이상)의 응답을 비교하고 전반적으로 또는 특정 기준에 대해 어떤 것이 더 나은지 결정하도록 요청하십시오. “응답 A와 응답 B를 비교하십시오. 어떤 것이 더 유용하고 사실적으로 정확합니까?” * **이진 레이블링:** 심사위원에게 응답을 분류하는 레이블을 생성하도록 요청하십시오. 예: 올바름/틀림, 관련성 있음/없음, 합격/불합격, 안전함/안전하지 않음 등 “이 응답이 당사의 최소 품질 기준을 충족하는지 확인하십시오.” **질문 5: 심사위원에게 어떤 채점 기준과 예시를 제공해야 합니까?** 잘 정의된 채점 기준과 구체적인 예시를 명시하는 것이 LLM 평가의 일관성과 정확성을 보장하는 핵심입니다. 채점 기준은 다양한 점수 수준에서 “좋음”이 무엇을 의미하는지 설명합니다. 예를 들어, 일관성에 대한 5점과 3점이 무엇을 의미하는지. 이는 LLM이 판단을 적용할 안정적인 프레임워크를 제공합니다. 채점 기준을 실행 가능하게 만들려면 해당 점수와 함께 예시 응답을 포함하는 것이 항상 좋습니다. 이는 퓨샷 학습의 실제 적용이며, LLM 출력의 신뢰성과 정렬을 크게 향상시키는 잘 알려진 전략입니다. 다음은 전자상거래 플랫폼의 AI 생성 제품 설명에서 유용성(1-5점 척도)을 평가하기 위한 예시 채점 기준입니다: [GPT-4o가 생성한 예시] “점수 5: 설명이 매우 유익하고 구체적이며 잘 구성되어 있습니다. 제품의 주요 기능, 이점 및 잠재적 사용 사례를 명확하게 강조하여 고객이 가치를 쉽게 이해할 수 있도록 합니다. 점수 4: 대부분 유용하며, 기능 및 사용 사례를 잘 다루지만, 사소한 세부 사항을 놓치거나 약간의 반복이 있을 수 있습니다. 점수 3: 적절히 유용합니다. 기본 기능을 다루지만 깊이가 부족하거나 발생할 수 있는 고객 질문을 해결하지 못합니다. 점수 2: 최소한으로 유용합니다. 실제 내용 없이 모호하거나 일반적인 진술을 제공합니다. 고객은 여전히 중요한 미해결 질문을 가질 수 있습니다. 점수 1: 유용하지 않습니다. 제품에 대한 오해의 소지가 있거나 관련성이 없거나 거의 유용한 정보가 포함되어 있지 않습니다. 예시 설명: “이 세련된 백팩은 어떤 경우에도 완벽합니다. 충분한 공간과 트렌디한 디자인으로 이상적인 동반자가 될 것입니다.” 할당된 점수: 3 설명: 어조는 친근하고 언어는 유창하지만, 설명에 구체적인 내용이 부족합니다. 재료, 치수, 사용 사례 또는 수납 공간이나 방수와 같은 실용적인 기능이 언급되지 않았습니다. 기능적이지만 깊이 있는 정보는 아닙니다. 채점 기준에서 “3”의 전형적인 예시입니다.” **질문 6: 어떤 출력 형식이 필요합니까?** 프롬프트에 지정해야 할 마지막 사항은 출력 형식입니다. 평가 결과를 인간 검토용으로 준비할 계획이라면 자연어 설명으로 충분한 경우가 많습니다. 원시 점수 외에, 심사위원에게 결정에 대한 짧은 단락의 정당화를 요청할 수도 있습니다. 그러나 자동화된 파이프라인에서 평가 결과를 사용하거나 대시보드에 표시할 계획이라면 JSON과 같은 구조화된 형식이 훨씬 더 실용적입니다. 여러 필드를 프로그래밍 방식으로 쉽게 구문 분석할 수 있습니다: ```json { "helpfulness_score": 4, "tone_score": 5, "explanation": "The response was clear and engaging, covering most key details with appropriate tone." } ``` 이러한 주요 질문 외에도 실제 사용에서 성능을 향상시킬 수 있는 두 가지 추가 사항을 염두에 두어야 합니다: * **명시적인 추론 지침.** LLM 심사위원에게 “단계별로 생각하라”고 지시하거나 최종 판단을 내리기 전에 추론을 제공하도록 요청할 수 있습니다. 이러한 연쇄 사고(chain-of-thought) 기술은 일반적으로 평가의 정확성(및 투명성)을 향상시킵니다. * **불확실성 처리.** 평가를 위해 제출된 응답이 모호하거나 맥락이 부족한 경우가 발생할 수 있습니다. 이러한 경우, 증거가 불충분할 때 LLM 심사위원에게 무엇을 해야 할지 명시적으로 지시하는 것이 좋습니다. 예를 들어, “사실을 확인할 수 없다면 ‘알 수 없음’으로 표시하십시오.” 이러한 알 수 없는 경우는 추가 검토를 위해 인간 평가자에게 전달될 수 있습니다. 이 작은 팁은 조용한 환각이나 지나치게 자신감 있는 점수 매기기를 방지하는 데 도움이 됩니다. 좋습니다! 이제 프롬프트 작성의 주요 측면을 다루었습니다. 빠른 체크리스트로 마무리하겠습니다: ✅ LLM 심사위원은 누구입니까? (역할) ✅ 어떤 콘텐츠를 평가하고 있습니까? (맥락) ✅ 어떤 품질 측면이 중요합니까? (평가 차원) ✅ 응답에 어떻게 점수를 매겨야 합니까? (방법) ✅ 어떤 채점 기준과 예시가 점수 매기기를 안내합니까? (표준) ✅ 어떤 출력 형식이 필요합니까? (구조) ✅ 단계별 추론 지침을 포함했습니까? 불확실성 처리를 다루었습니까? #### 2.2 어떤 LLM을 사용해야 하는가? LLM 심사위원을 작동시키기 위해 고려해야 할 또 다른 중요한 요소는 어떤 LLM 모델을 사용할지입니다. 일반적으로 두 가지 경로를 선택할 수 있습니다: 대규모 최첨단 모델을 채택하거나 소규모 특정 모델을 사용하는 것입니다. 자세히 살펴보겠습니다. 광범위한 작업의 경우, GPT-4o, Claude 4, Gemini-2.5와 같은 대규모 최첨단 모델은 인간 평가자와 더 잘 상관 관계를 가지며 길고 신중하게 작성된 평가 프롬프트(이전 섹션에서 작성한 것과 같은)를 따를 수 있습니다. 따라서 이들은 일반적으로 LLM 심사위원 역할을 위한 기본 선택입니다. 그러나 이러한 대규모 모델의 API를 호출하는 것은 일반적으로 높은 지연 시간, 높은 비용(평가할 사례가 많은 경우), 그리고 가장 우려되는 것은 데이터가 제3자에게 전송되어야 한다는 것을 의미합니다. 이러한 우려를 해결하기 위해 소규모 언어 모델이 등장하고 있습니다. 이들은 일반적으로 평가 데이터에 미세 조정된 Llama(Meta)/Phi(Microsoft)/Qwen(Alibaba)의 오픈 소스 변형입니다. 이는 이들을 가장 중요하게 여기는 특정 도메인에 대한 “작지만 강력한” 심사위원으로 만듭니다. 따라서 모든 것은 특정 사용 사례 및 제약 조건에 따라 달라집니다. 경험상, 대규모 LLM으로 품질 기준을 설정한 다음, 지연 시간, 비용 또는 데이터 주권 요구 사항을 충족하기 위해 더 작고 미세 조정된 모델을 실험해 볼 수 있습니다. ### 3. 현실 점검: 한계 및 대처 방법 인생의 모든 것과 마찬가지로, LLM 심사위원도 단점이 없는 것은 아닙니다. 그 잠재력에도 불구하고, 비일관성, 편향 등과 같은 문제가 있으며, 이에 주의해야 합니다. 이 섹션에서는 이러한 한계에 대해 이야기해 보겠습니다. #### 3.1 비일관성 LLM은 본질적으로 확률적입니다. 즉, 동일한 LLM 심사위원이라도 동일한 지침으로 프롬프트를 두 번 실행하면 다른 평가(예: 점수, 추론 등)를 출력할 수 있습니다. 이로 인해 평가 결과를 재현하거나 신뢰하기 어렵습니다. LLM 심사위원을 더 일관성 있게 만드는 몇 가지 방법이 있습니다. 예를 들어, 프롬프트에 더 많은 예시 평가를 제공하는 것이 효과적인 완화 전략으로 입증되었습니다. 그러나 이는 더 긴 프롬프트가 더 높은 추론 토큰 소비를 의미하므로 비용이 발생합니다. 조정할 수 있는 또 다른 노브는 LLM의 온도 매개변수입니다. 더 결정적인 평가를 생성하려면 낮은 값을 설정하는 것이 일반적으로 권장됩니다. #### 3.2 편향 이는 LLM 심사위원 접근 방식을 실제로 채택하는 데 있어 주요 우려 사항 중 하나입니다. LLM 심사위원은 모든 LLM과 마찬가지로 다양한 형태의 편향에 취약합니다. 여기서는 몇 가지 일반적인 편향을 나열합니다: * **위치 편향:** LLM 심사위원은 프롬프트 내에서 제시된 순서에 따라 응답을 선호하는 경향이 있다고 보고되었습니다. 예를 들어, LLM 심사위원은 쌍별 비교에서 실제 품질과 관계없이 첫 번째 응답을 일관되게 선호할 수 있습니다. * **자기 선호 편향:** 일부 LLM은 자신의 출력 또는 동일한 계열의 모델이 생성한 출력을 더 호의적으로 평가하는 경향이 있습니다. * **장황함 편향:** LLM 심사위원은 더 길고 장황한 응답을 선호하는 경향이 있는 것 같습니다. 이는 간결성이 바람직한 품질이거나 더 짧은 응답이 더 정확하거나 관련성이 있을 때 실망스러울 수 있습니다. * **상속된 편향:** LLM 심사위원은 훈련 데이터에서 편향을 상속합니다. 이러한 편향은 미묘한 방식으로 평가에 나타날 수 있습니다. 예를 들어, 심사위원 LLM은 특정 관점, 어조 또는 인구 통계학적 단서와 일치하는 응답을 선호할 수 있습니다. 그렇다면 이러한 편향과 어떻게 싸워야 할까요? 몇 가지 전략을 염두에 두어야 합니다. 우선, 프롬프트를 다듬으세요. 평가 기준을 가능한 한 명시적으로 정의하여 암묵적인 편향이 결정을 좌우할 여지가 없도록 하세요. 심사위원에게 특정 편향을 피하도록 명시적으로 지시하세요. 예를 들어, “응답의 길이 또는 제시 순서와 관계없이 사실 정확성에만 기초하여 응답을 평가하십시오.” 다음으로, 퓨샷 프롬프트에 다양한 예시 응답을 포함하세요. 이는 LLM 심사위원이 균형 잡힌 노출을 보장합니다. 특히 위치 편향을 완화하려면 양방향으로 쌍을 평가해 보세요. 즉, A 대 B, 그리고 B 대 A를 평가하고 결과를 평균화하세요. 이는 공정성을 크게 향상시킬 수 있습니다. 마지막으로, 계속 반복하세요. LLM 심사위원의 편향을 완전히 제거하는 것은 어렵습니다. 더 나은 접근 방식은 LLM 심사위원을 스트레스 테스트하기 위한 좋은 테스트 세트를 큐레이션하고, 학습 내용을 사용하여 프롬프트를 개선한 다음, 평가를 다시 실행하여 개선 사항을 확인하는 것입니다. #### 3.3 과신 우리는 LLM이 자신감 있게 들리지만 실제로는 틀린 경우를 모두 보았습니다. 불행히도, 이러한 특성은 평가자 역할에도 이어집니다. 평가가 자동화된 파이프라인에서 사용될 때, 잘못된 자신감은 쉽게 확인되지 않고 혼란스러운 결론으로 이어질 수 있습니다. 이를 해결하려면 프롬프트에서 보정된 추론을 명시적으로 장려해 보세요. 예를 들어, LLM에게 신뢰할 수 있는 평가를 내릴 만큼 충분한 정보가 응답에 부족한 경우 “판단 불가”라고 말하도록 지시하세요. 또한 구조화된 출력에 신뢰도 점수 필드를 추가하여 모호성을 드러내는 데 도움을 줄 수 있습니다. 이러한 예외적인 경우는 인간 평가자가 추가로 검토할 수 있습니다. ### 4. 유용한 도구 및 실제 응용 프로그램 #### 4.1 도구 LLM 심사위원 접근 방식을 시작하기 위한 좋은 소식은, 선택할 수 있는 다양한 오픈 소스 도구와 상업용 플랫폼이 있다는 것입니다. 오픈 소스 측면에서는 다음이 있습니다: * **OpenAI Evals:** LLM 및 LLM 시스템 평가를 위한 프레임워크이자 벤치마크의 오픈 소스 레지스트리입니다. * **DeepEval:** 대규모 언어 모델 시스템(예: RAG 파이프라인, 챗봇, AI 에이전트 등)을 평가하고 테스트하기 위한 사용하기 쉬운 LLM 평가 프레임워크입니다. Pytest와 유사하지만 LLM 출력을 단위 테스트하는 데 특화되어 있습니다. * **TruLens:** LLM 실험을 체계적으로 평가하고 추적합니다. 핵심 기능에는 피드백 함수, RAG 삼합(Triad), 정직하고, 무해하며, 유용한 평가(Honest, Harmless and Helpful Evals)가 포함됩니다. * **Promptfoo:** LLM 애플리케이션 테스트를 위한 개발자 친화적인 로컬 도구입니다. 프롬프트, 에이전트, RAG 테스트를 지원합니다. LLM에 대한 레드 팀, 침투 테스트 및 취약점 스캐닝을 지원합니다. * **LangSmith:** LLM 애플리케이션 구축을 위한 인기 있는 프레임워크인 LangChain에서 제공하는 평가 유틸리티입니다. 오프라인 및 온라인 평가 모두에 LLM 심사위원 평가자를 지원합니다. 관리형 서비스를 선호한다면 상업용 제품도 이용할 수 있습니다. 몇 가지 예를 들면 다음과 같습니다: Amazon Bedrock Model Evaluation, Azure AI Foundry/MLflow 3, Google Vertex AI Evaluation Service, Evidently AI, Weights & Biases Weave, Langfuse. #### 4.2 응용 프로그램 배우는 좋은 방법은 다른 사람들이 이미 LLM 심사위원을 실제 세계에서 어떻게 사용하고 있는지 관찰하는 것입니다. 대표적인 사례는 Webflow가 LLM 심사위원을 사용하여 AI 기능의 출력 품질을 평가하는 방법입니다 [1-2]. 견고한 LLM 파이프라인을 개발하기 위해 Webflow 제품 팀은 모델 평가에 크게 의존합니다. 즉, 많은 수의 테스트 입력을 준비하고, LLM 시스템을 통해 실행한 다음, 최종적으로 출력 품질을 채점합니다. 객관적 평가와 주관적 평가가 병렬로 수행되며, LLM 심사위원 접근 방식은 주로 주관적 평가를 대규모로 제공하는 데 사용됩니다. 그들은 주관적 판단을 포착하기 위해 다점 평가 체계인 “성공”, “부분적 성공”, “실패”를 정의했습니다. LLM 심사위원은 이 채점 기준을 수천 개의 테스트 입력에 적용하고 CI 대시보드에 점수를 기록합니다. 이를 통해 제품 팀은 LLM 파이프라인의 상태를 공유된 거의 실시간으로 볼 수 있습니다. LLM 심사위원이 실제 사용자 기대치와 일치하는지 확인하기 위해 팀은 또한 소수의 무작위 출력 샘플을 정기적으로 수동 채점을 위해 추출합니다. 두 점수 세트를 비교하고, 격차가 벌어지는 것이 확인되면 LLM 심사위원 자체에 대한 프롬프트 개선 또는 재훈련 작업이 트리거됩니다. 그렇다면 이것이 우리에게 무엇을 가르쳐줍니까? 첫째, LLM 심사위원은 단순히 이론적인 개념이 아니라 산업에서 실질적인 가치를 제공하는 유용한 전략입니다. Webflow는 명확한 채점 기준과 CI 통합을 통해 LLM 심사위원을 운영함으로써 주관적인 품질을 측정 가능하고 실행 가능하게 만들었습니다. 둘째, LLM 심사위원은 인간의 판단을 대체하기 위한 것이 아니라, 단지 그 판단이 적용되는 지점을 이동시킬 뿐입니다. 개별 응답을 검토하는 대신, 이제는 평가 프롬프트를 신중하게 설계하고, 고품질 테스트 케이스를 큐레이션하고, 모든 종류의 편향을 관리하며, 시간이 지남에 따라 심사위원의 성능을 지속적으로 모니터링해야 합니다. ### 5. 결론 이 블로그에서는 LLM 심사위원에 대해 많은 것을 다루었습니다: 무엇인지, 왜 중요하게 여겨야 하는지, 어떻게 작동시키는지, 그 한계와 완화 전략, 사용 가능한 도구, 그리고 배울 수 있는 실제 사용 사례. 마무리하며 두 가지 핵심 사고방식을 알려드리겠습니다. 첫째, 평가에서 완벽하고 절대적인 진실을 쫓는 것을 멈추세요. 대신, 실제 개선을 이끌어내는 일관되고 실행 가능한 피드백을 얻는 데 집중하세요. 둘째, 공짜 점심은 없습니다. LLM 심사위원은 인간의 판단 필요성을 없애지 않습니다. 단지 그 판단이 적용되는 지점을 바꿀 뿐입니다. 개별 응답을 검토하는 대신, 이제는 평가 프롬프트를 신중하게 설계하고, 고품질 테스트 케이스를 큐레이션하고, 모든 종류의 편향을 관리하며, 시간이 지남에 따라 심사위원의 성능을 지속적으로 모니터링해야 합니다. 이제 다음 LLM 프로젝트에 LLM 심사위원을 도구 키트에 추가할 준비가 되셨습니까? 참조 [1] AI 품질 마스터하기: 대규모 언어 모델 출력 품질을 개선하기 위해 언어 모델 평가를 사용하는 방법, Webflow 블로그. [2] LLM 심사위원: LLM을 평가에 사용하는 완벽 가이드, Evidently AI. 출처: Towards Data Science

•2025년 6월 20일•조회 0

페르미넷: AI로 양자화학 난제 풀다, 신소재 개발 가속화

사이언스 페르미넷: 양자 물리학 및 화학, 제1원리로부터 풀다 2024년 8월 22일 발행 저자: 데이비드 파우(David Pfau), 제임스 스펜서(James Spencer) 참고: 이 블로그는 2020년 10월 19일에 처음 게시되었습니다. 2024년 8월 22일 '사이언스'에 들뜬 상태(excited states)에 대한 획기적인 연구 결과가 발표된 후, 저희는 일부 내용을 업데이트하고 이 새로운 연구 단계에 대한 섹션을 추가했습니다. 딥러닝을 사용하여 계산 양자 화학의 근본적인 문제를 해결하고 물질이 빛과 상호작용하는 방식을 탐구하다 '피지컬 리뷰 리서치(Physical Review Research)'에 발표된 논문에서 저희는 딥러닝이 실제 시스템의 양자 역학 기본 방정식을 해결하는 데 어떻게 도움이 될 수 있는지 보여주었습니다. 이는 중요한 기초 과학 질문일 뿐만 아니라, 미래에 연구자들이 실험실에서 시도하기 전에 컴퓨터 시뮬레이션을 통해 새로운 재료와 화학 합성을 시뮬레이션할 수 있게 하여 실질적인 용도로 이어질 수 있습니다. 저희의 신경망 아키텍처인 페르미넷(FermiNet, 페르미온 신경망)은 화학 결합의 기본 구성 요소인 많은 수의 전자의 양자 상태를 모델링하는 데 매우 적합합니다. 저희는 이 연구의 코드를 공개하여 계산 물리학 및 화학 커뮤니티가 저희의 작업을 기반으로 광범위한 문제에 적용할 수 있도록 했습니다. 페르미넷은 원자와 분자의 에너지를 제1원리(first principles)로부터 계산하는 딥러닝의 첫 시연이었으며, 이는 실제 적용에 충분히 정확했습니다. 그리고 자체 어텐션을 기반으로 한 저희의 새로운 아키텍처인 프사이포머(Psiformer)는 현재까지 가장 정확한 AI 방법으로 남아 있습니다. 저희는 인공지능(AI) 연구에서 개발된 도구와 아이디어가 근본적인 과학 문제를 해결하는 데 도움이 되기를 바라며, 페르미넷은 단백질 접힘, 유리질 역학, 격자 양자 색역학 등 저희의 다른 많은 프로젝트와 함께 이러한 비전을 현실로 만들고 있습니다. 양자 역학의 간략한 역사 "양자 역학"을 언급하면 혼란만 가중될 가능성이 높습니다. 이 용어는 역설적으로 살아있으면서도 죽어 있을 수 있는 슈뢰딩거의 고양이와, 어떻게든 파동이기도 한 기본 입자들의 이미지를 떠올리게 합니다. 양자 시스템에서 전자와 같은 입자는 고전적 설명에서처럼 정확한 위치를 가지지 않습니다. 대신, 그 위치는 확률 구름으로 묘사됩니다. 즉, 허용되는 모든 공간에 퍼져 있습니다. 이러한 직관에 반하는 상황 때문에 리처드 파인만은 "양자 역학을 이해한다고 생각한다면, 당신은 양자 역학을 이해하지 못하는 것이다"라고 선언했습니다. 이러한 기묘함에도 불구하고, 이론의 핵심은 몇 가지 간단한 방정식으로 축소될 수 있습니다. 이 중 가장 유명한 슈뢰딩거 방정식은 뉴턴의 운동 법칙이 우리에게 더 친숙한 인간 규모의 물체 행동을 묘사하는 것과 같은 방식으로 양자 규모의 입자 행동을 묘사합니다. 이 방정식의 해석은 끝없는 골치 아픔을 유발할 수 있지만, 수학은 다루기 훨씬 쉽습니다. 이는 학생들이 까다로운 철학적 질문을 할 때 교수들이 흔히 "닥치고 계산해라"라고 말하는 이유이기도 합니다. 이러한 방정식은 원자와 원자핵 수준에서 우리가 주변에서 보는 모든 친숙한 물질의 행동을 설명하기에 충분합니다. 그들의 직관에 반하는 본질은 초전도체, 초유체, 레이저 및 반도체와 같은 온갖 종류의 이국적인 현상으로 이어집니다. 이 모든 것은 양자 효과 때문에 가능합니다. 그러나 가장 기본적인 화학 결합인 공유 결합조차도 전자의 양자 상호작용의 결과입니다. 1920년대에 이러한 규칙들이 밝혀지자 과학자들은 처음으로 화학이 어떻게 작동하는지에 대한 상세한 이론을 갖게 되었음을 깨달았습니다. 원칙적으로 그들은 다른 분자들에 대해 이러한 방정식을 설정하고 시스템의 에너지를 풀어서 어떤 분자가 안정하고 어떤 반응이 자발적으로 일어날지 알아낼 수 있었습니다. 그러나 실제로 이러한 방정식의 해를 계산하기 위해 앉았을 때, 그들은 가장 간단한 원자(수소)에 대해서만 정확하게 계산할 수 있었고, 다른 것은 거의 불가능하다는 것을 발견했습니다. 다른 모든 것은 너무 복잡했습니다. “물리학의 상당 부분과 화학 전체의 수학적 이론에 필요한 근본적인 물리 법칙은 완전히 알려져 있으며, 어려움은 단지 이러한 법칙의 정확한 적용이 너무 복잡하여 풀 수 없는 방정식으로 이어진다는 점뿐입니다. 따라서 양자 역학을 적용하는 실용적인 근사 방법을 개발하는 것이 바람직합니다.” — 양자 역학의 창시자, 폴 디랙, 1929년 많은 이들이 디랙의 과제를 받아들였고, 곧 물리학자들은 분자 결합 및 기타 화학 현상의 정성적 행동을 근사할 수 있는 수학적 기술을 구축했습니다. 이 방법들은 전자들이 어떻게 행동하는지에 대한 근사적인 설명에서 시작했으며, 이는 입문 화학에서 익숙할 수 있습니다. 이 설명에서 각 전자는 특정 궤도에 할당되며, 이는 원자핵 근처의 어떤 지점에서 단일 전자가 발견될 확률을 제공합니다. 각 궤도의 모양은 다른 모든 궤도의 평균 모양에 따라 달라집니다. 이 "평균장(mean field)" 설명은 각 전자를 하나의 궤도에만 할당하는 것으로 취급하므로, 전자가 실제로 어떻게 행동하는지에 대한 매우 불완전한 그림을 제공합니다. 그럼에도 불구하고, 분자의 총 에너지를 약 0.5% 오차로 추정하는 데는 충분합니다. 불행히도 0.5%의 오차는 여전히 실제 화학자에게 유용하기에는 충분하지 않습니다. 분자 결합의 에너지는 시스템 총 에너지의 극히 일부에 불과하며, 분자가 안정적인지 여부를 정확하게 예측하는 것은 종종 시스템 총 에너지의 0.001% 또는 나머지 "상관 에너지(correlation energy)"의 약 0.2%에 달려 있습니다. 예를 들어, 부타디엔 분자의 전자 총 에너지는 거의 10만 킬로칼로리/몰(kcal/mol)이지만, 분자의 다른 가능한 형태 간의 에너지 차이는 단지 1 kcal/mol에 불과합니다. 이는 부타디엔의 자연적인 형태를 정확하게 예측하려면 축구장 너비를 밀리미터 단위로 측정하는 것과 동일한 수준의 정밀도가 필요하다는 것을 의미합니다. 제2차 세계대전 이후 디지털 컴퓨팅의 등장과 함께 과학자들은 전자의 평균장 설명을 넘어선 광범위한 계산 방법을 개발했습니다. 이 방법들은 다양한 약어로 표기되지만, 일반적으로 정확도와 효율성 사이의 균형을 맞추는 축 어딘가에 위치합니다. 한쪽 극단에는 전자 수에 따라 기하급수적으로 더 나쁘게 확장되는 본질적으로 정확한 방법이 있어 가장 작은 분자를 제외하고는 비실용적입니다. 다른 극단에는 선형적으로 확장되지만 그다지 정확하지 않은 방법이 있습니다. 이러한 계산 방법은 화학 실습에 엄청난 영향을 미쳤습니다. 1998년 노벨 화학상은 이러한 알고리즘의 창시자들에게 수여되었습니다. 페르미온 신경망 기존 계산 양자 역학 도구의 폭넓음에도 불구하고, 우리는 효율적인 표현 문제를 해결하기 위한 새로운 방법이 필요하다고 느꼈습니다. 가장 근사적인 방법조차도 가장 큰 양자 화학 계산이 수만 개의 전자에 불과한 반면, 분자 역학과 같은 고전적인 화학 계산 기술은 수백만 개의 원자를 처리할 수 있는 이유가 있습니다. 고전 시스템의 상태는 쉽게 설명할 수 있습니다. 각 입자의 위치와 운동량을 추적하기만 하면 됩니다. 양자 시스템의 상태를 표현하는 것은 훨씬 더 어렵습니다. 전자 위치의 모든 가능한 구성에 확률을 할당해야 합니다. 이는 파동 함수에 인코딩되며, 파동 함수는 전자의 모든 구성에 양수 또는 음수를 할당하고, 파동 함수 제곱은 해당 구성에서 시스템을 찾을 확률을 제공합니다. 모든 가능한 구성의 공간은 엄청납니다. 각 차원을 따라 100개의 점으로 그리드를 표현하려고 한다면, 실리콘 원자의 가능한 전자 구성 수는 우주의 원자 수보다 많을 것입니다. 바로 이 지점에서 딥 신경망이 도움이 될 수 있다고 생각했습니다. 지난 몇 년 동안 신경망으로 복잡하고 고차원적인 확률 분포를 표현하는 데 엄청난 발전이 있었습니다. 이제 우리는 이러한 네트워크를 효율적이고 확장 가능하게 훈련하는 방법을 알고 있습니다. 우리는 이 네트워크가 AI 문제에서 고차원 함수를 맞추는 능력을 이미 입증했으므로, 양자 파동 함수를 표현하는 데도 사용될 수 있을 것이라고 추측했습니다. 주세페 카를레오(Giuseppe Carleo), 마티아스 트로이어(Matthias Troyer) 등 연구자들은 현대 딥러닝이 이상적인 양자 문제를 해결하는 데 어떻게 사용될 수 있는지 보여주었습니다. 우리는 딥 신경망을 사용하여 화학 및 응집 물질 물리학에서 더 현실적인 문제에 도전하고 싶었고, 이는 계산에 전자를 포함하는 것을 의미했습니다. 전자를 다룰 때 한 가지 문제가 있습니다. 전자는 파울리 배타 원리(Pauli exclusion principle)를 따라야 하는데, 이는 전자가 동시에 같은 공간에 있을 수 없다는 것을 의미합니다. 이는 전자가 페르미온이라고 알려진 입자 유형이기 때문이며, 페르미온에는 대부분의 물질의 구성 요소인 양성자, 중성자, 쿼크, 중성미자 등이 포함됩니다. 이들의 파동 함수는 반대칭적이어야 합니다. 두 전자의 위치를 바꾸면 파동 함수에 -1이 곱해집니다. 이는 두 전자가 서로 위에 있으면 파동 함수(및 해당 구성의 확률)가 0이 된다는 것을 의미합니다. 이것은 입력에 대해 반대칭적인 새로운 유형의 신경망을 개발해야 했음을 의미했으며, 우리는 이를 페르미넷이라고 불렀습니다. 대부분의 양자 화학 방법에서는 행렬식(determinant)이라는 함수를 사용하여 반대칭성을 도입합니다. 행렬식은 두 행을 바꾸면 출력이 -1로 곱해지는 속성을 가지며, 이는 페르미온의 파동 함수와 같습니다. 따라서 여러 개의 단일 전자 함수를 가져와 시스템의 모든 전자마다 평가하고, 모든 결과를 하나의 행렬에 채워 넣을 수 있습니다. 그 행렬의 행렬식은 제대로 반대칭적인 파동 함수가 됩니다. 이 접근법의 주요 한계는 결과 함수—슬레이터 행렬식(Slater determinant)으로 알려짐—가 그다지 일반적이지 않다는 것입니다. 실제 시스템의 파동 함수는 일반적으로 훨씬 더 복잡합니다. 이를 개선하는 일반적인 방법은 수백만 개 이상의 슬레이터 행렬식의 큰 선형 조합을 취하고, 전자 쌍에 기반한 몇 가지 간단한 보정을 추가하는 것입니다. 그렇더라도 에너지를 정확하게 계산하기에는 충분하지 않을 수 있습니다. 딥 신경망은 종종 기저 함수의 선형 조합보다 복잡한 함수를 표현하는 데 훨씬 더 효율적일 수 있습니다. 페르미넷에서는 행렬식에 들어가는 각 함수를 모든 전자의 함수로 만듦으로써 이를 달성합니다 (각주 참조). 이는 단지 1전자 및 2전자 함수만 사용하는 방법을 훨씬 뛰어넘습니다. 페르미넷은 각 전자에 대한 별도의 정보 스트림을 가집니다. 이러한 스트림 간의 상호작용이 없다면, 네트워크는 기존 슬레이터 행렬식보다 표현력이 더 좋지 않을 것입니다. 이를 넘어서기 위해, 우리는 네트워크의 각 레이어에서 모든 스트림의 정보를 함께 평균하고, 이 정보를 다음 레이어의 각 스트림에 전달합니다. 그렇게 하면 이러한 스트림은 반대칭 함수를 생성하는 올바른 대칭 속성을 가집니다. 이는 그래프 신경망이 각 레이어에서 정보를 집계하는 방식과 유사합니다. 슬레이터 행렬식과 달리 페르미넷은 최소한 신경망 레이어가 충분히 넓어지는 한, 범용 함수 근사자입니다. 이는 이 네트워크를 올바르게 훈련할 수 있다면 슈뢰딩거 방정식의 거의 정확한 해를 맞출 수 있어야 한다는 것을 의미합니다. 우리는 시스템의 에너지를 최소화하여 페르미넷을 맞춥니다. 이를 정확하게 수행하려면 모든 가능한 전자 구성에서 파동 함수를 평가해야 하므로, 대신 근사적으로 수행해야 합니다. 우리는 무작위로 전자 구성을 선택하고, 각 전자 배열에서 에너지를 국부적으로 평가하고, 각 배열의 기여를 합산하여 실제 에너지 대신 이를 최소화합니다. 이는 몬테카를로 방법으로 알려져 있는데, 도박꾼이 주사위를 계속 던지는 것과 비슷하기 때문입니다. 비록 근사적이지만, 더 정확하게 만들 필요가 있다면 언제든지 다시 주사위를 던질 수 있습니다. 파동 함수 제곱은 어떤 위치에서든 입자 배열을 관찰할 확률을 제공하므로, 파동 함수 자체에서 샘플을 생성하는 것이 가장 편리합니다. 본질적으로 입자를 관찰하는 행위를 시뮬레이션하는 것입니다. 대부분의 신경망은 외부 데이터로부터 훈련되지만, 우리의 경우 신경망 훈련에 사용되는 입력은 신경망 자체에 의해 생성됩니다. 이는 전자가 춤추는 원자핵의 위치 외에는 훈련 데이터가 필요 없다는 것을 의미합니다. 변분 양자 몬테카를로(VMC)로 알려진 이 기본 아이디어는 1960년대부터 존재했으며, 일반적으로 시스템의 에너지를 계산하는 저렴하지만 그다지 정확하지 않은 방법으로 간주됩니다. 슬레이터 행렬식 기반의 간단한 파동 함수를 페르미넷으로 대체함으로써, 우리는 우리가 조사한 모든 시스템에서 이 접근법의 정확도를 극적으로 향상시켰습니다. 페르미넷이 최첨단 기술의 진보를 나타내는지 확인하기 위해, 우리는 주기율표의 첫 번째 행에 있는 원자(수소부터 네온까지)와 같이 간단하고 잘 연구된 시스템을 조사하는 것부터 시작했습니다. 이들은 10개 이하의 전자를 가진 작은 시스템이며, 가장 정확한(그러나 기하급수적으로 확장되는) 방법으로 처리할 수 있을 만큼 충분히 간단합니다. 페르미넷은 유사한 VMC 계산보다 훨씬 뛰어난 성능을 보이며, 종종 기하급수적으로 확장되는 계산에 비해 오차를 절반 이상 줄입니다. 더 큰 시스템에서는 기하급수적으로 확장되는 방법이 비실용적이 되므로, 대신 결합 클러스터(coupled cluster) 방법을 기준으로 사용합니다. 이 방법은 분자가 안정적인 구성일 때 잘 작동하지만, 화학 반응을 이해하는 데 중요한 결합이 늘어나거나 끊어질 때 어려움을 겪습니다. 기하급수적으로 확장되는 것보다는 훨씬 낫지만, 우리가 사용한 특정 결합 클러스터 방법은 여전히 전자 수의 7제곱에 비례하여 확장되므로 중간 크기 분자에만 사용할 수 있습니다. 우리는 수소화 리튬부터 시작하여 우리가 조사한 가장 큰 시스템인 30개의 전자를 가진 바이사이클로부탄(bicyclobutane)에 이르기까지 점진적으로 더 큰 분자에 페르미넷을 적용했습니다. 가장 작은 분자에서는 페르미넷이 결합 클러스터 에너지와 단일 슬레이터 행렬식에서 얻는 에너지 간의 차이의 놀라운 99.8%를 포착했습니다. 바이사이클로부탄에서도 페르미넷은 이 상관 에너지의 97% 이상을 여전히 포착했는데, 이는 이러한 간단한 접근법으로서는 엄청난 성과입니다. 결합 클러스터 방법은 안정적인 분자에 잘 작동하지만, 계산 화학의 진정한 프론티어는 분자가 어떻게 늘어나고, 뒤틀리고, 끊어지는지를 이해하는 데 있습니다. 거기서는 결합 클러스터 방법이 종종 어려움을 겪으므로, 일관된 답변을 얻기 위해 가능한 한 많은 기준과 비교해야 합니다. 우리는 두 가지 벤치마크 늘어난 시스템을 살펴보았습니다: 질소 분자(N2)와 10개 원자로 이루어진 수소 사슬(H10). 질소는 각 질소 원자가 세 개의 전자를 기여하기 때문에 특히 어려운 분자 결합입니다. 한편, 수소 사슬은 물질에서 전자가 어떻게 행동하는지 이해하는 데 관심이 있으며, 예를 들어 물질이 전기를 전도하는지 여부를 예측하는 데 사용됩니다. 두 시스템 모두에서 결합 클러스터 방법은 평형 상태에서는 잘 작동했지만, 결합이 늘어날수록 문제가 발생했습니다. 기존 VMC 계산은 전반적으로 성능이 좋지 않았지만, 페르미넷은 결합 길이에 관계없이 조사된 방법 중 최고 수준이었습니다. 들뜬 상태를 계산하는 새로운 방법 2024년 8월, 우리는 이 연구의 다음 단계를 '사이언스'에 발표했습니다. 저희 연구는 계산 양자 화학에서 가장 어려운 과제 중 하나인 분자가 자극을 받을 때 들뜬 상태로 전이하고 다시 돌아오는 방식을 이해하는 해결책을 제시합니다. 페르미넷은 원래 주어진 핵 세트 주변의 가장 낮은 에너지 구성인 분자의 바닥 상태(ground states)에 초점을 맞췄습니다. 그러나 분자와 물질이 빛이나 고온과 같은 많은 에너지에 의해 자극을 받으면, 전자는 더 높은 에너지 구성인 들뜬 상태로 이동할 수 있습니다. 들뜬 상태는 물질이 빛과 상호작용하는 방식을 이해하는 데 근본적입니다. 흡수되고 방출되는 정확한 에너지 양은 다양한 분자와 물질에 대한 고유한 '지문'을 생성하며, 이는 태양 전지 및 LED에서 반도체, 광촉매 등에 이르는 기술의 성능에 영향을 미칩니다. 또한 광합성 및 시각과 같은 빛과 관련된 생물학적 과정에서도 중요한 역할을 합니다. 들뜬 상태의 에너지를 정확하게 계산하는 것은 바닥 상태 에너지를 계산하는 것보다 훨씬 더 어렵습니다. 결합 클러스터와 같은 바닥 상태 화학의 '황금 표준' 방법조차도 들뜬 상태에서 수십 배나 큰 오차를 보였습니다. 페르미넷에 대한 우리의 작업을 들뜬 상태로 확장하고 싶었지만, 기존 방법은 신경망이 최첨단 접근 방식과 경쟁하기에 충분히 잘 작동하지 않았습니다. 우리는 이전 방법보다 더 견고하고 일반적인 들뜬 상태 계산을 위한 새로운 접근 방식을 개발했습니다. 우리의 접근 방식은 페르미넷 및 기타 신경망을 포함한 모든 종류의 수학적 모델에 적용될 수 있습니다. 이는 추가 입자를 가진 확장된 시스템의 바닥 상태를 찾는 방식으로 작동하므로, 기존 최적화 알고리즘을 거의 수정 없이 사용할 수 있습니다. 우리는 이 작업을 광범위한 벤치마크에서 검증했으며, 매우 유망한 결과를 얻었습니다. 작지만 복잡한 탄소 이합체(carbon dimer)라는 분자에서, 우리는 평균 절대 오차(MAE) 4 meV를 달성했습니다. 이는 20 meV에 달하는 이전 '황금 표준' 방법보다 실험 결과에 5배 더 가까운 수치입니다. 또한 우리는 두 전자가 동시에 들뜬 상태가 되는 계산 화학에서 가장 어려운 시스템 중 일부에 대해서도 우리의 방법을 테스트했으며, 현재까지 수행된 가장 까다롭고 복잡한 계산과 약 0.1 eV 이내의 오차를 보였습니다. 오늘, 우리는 최신 작업을 오픈 소스화하며, 연구 커뮤니티가 우리의 방법을 기반으로 물질이 빛과 상호작용하는 예상치 못한 방식을 탐구하기를 희망합니다.

더 많은 게시글 불러오기...

•2025년 6월 20일•조회 0