wandb
weight & biases
머신러닝 및 딥러닝 모델 개발 시 실험 과정을 쉽게 추적하고 시각화하며 관리할 수 있도록 돕는 MLOps(머신러닝 오퍼레이션) 플랫폼
텐서플로우의 텐서보드(Tensorboard)와 유사한 기능을 하지만, 파이토치(Pytorch), 케라스(Keras), Scikit-learn 등 다양한 프레임워크를 지원하여 확장성이 뛰어나다.
주요 기능
Wandb는 모델 개발의 전 과정을 지원하는 다양한 기능을 제공합니다.
•
실험 추적 및 시각화: 모델 학습 중 손실(loss), 정확도(accuracy)와 같은 지표를 실시간으로 추적하고 대시보드를 통해 시각화하여 여러 실험 결과를 손쉽게 비교할 수 있습니다.
•
하이퍼파라미터 튜닝 (Sweeps): 다양한 하이퍼파라미터 조합을 자동으로 테스트하여 최적의 값을 찾는 과정을 자동화하고 시각적으로 비교할 수 있습니다.
•
데이터셋 및 모델 버전 관리 (Artifacts): 실험에 사용된 데이터셋과 학습된 모델의 버전을 체계적으로 관리하여 실험의 재현성을 높입니다.
•
시스템 리소스 모니터링: 학습 과정에서 GPU 및 CPU 사용량, 메모리, 온도 등 시스템 리소스 상태를 모니터링할 수 있습니다.
•
협업 및 보고서 작성: 실험 결과를 문서화하고 팀원들과 쉽게 공유할 수 있는 리포트 기능을 제공하여 협업을 용이하게 합니다.
GenAI: Easy to demo, Hard to productionize
RAG Work
1.
Query
2.
Retrieve
3.
Generate
4.
Respond
Agentic RAG
Plan & Action
1.
Receive Query
2.
Clarify
3.
Add Context
4.
Plan tasks
5.
Search Sources
6.
Summarize info
7.
Cite Sources
Weave: From Trace to Evaluation
생성형 AI 워크플로우에서 생성되는 모든 정보를 실험부터 평가, 프로덕션 환경까지 체계적으로 관리할 수 있다.
Trace
•
모든 입/출력 데이터 자동 기록
•
쉽게 조작할 수 있는 TraceTree에 상세 정보 기록
•
레이턴시, 비용관련 기록 가능
Evaluation
•
고유 평가 방법
•
휴먼 피드백 가능
•
시스템 비교 보고서 자동 생성
시스템 구성요소의 버전 관리
Iteration
Playground
•
동일한 프롬프트에 대한 여러 모델의 출력 비교
•
팀단위 거버넌스 지원
•
직관적인 UI
Trace
•
Langsmith와 차이점
◦
구성요소 관리
◦
세그먼테이션 마스크 ON/OFF 가능
AI 이미지 에디터 사례로 보는 VLM
AI 이미지 추천
•
MD가 자동으로 이미지를 추천
Image + Text
1.
Image Captioning (Image → Text): 자유 양식 생성
2.
VQA (Image + Text → Text): 객관식, 자유양식
3.
Embedding Based (Image + Text → Score): CLIP, SIGLIP, ColPali, Col*
4.
VL(M) (Image + Text → Text + … → 자유양식, Structured Output (Instruction tuned)
답장 유형
Objective 객관적인 답 있음
Subjective 주관적인 답 포함
•
Freefrom
•
Multiple Choice
•
Yes/No
•
답 불가
중요 포인트 → Context 부여
모델 선택 방법
•
모델이 어떤 데이터로 훈련된
•
Flamingo(DeepMind)
•
BLIP계열 (Salesforce) 1→2→Instruct
•
Qwen계열 (Alibaba) 1 → 2 → 2.5
•
LLaVA계열 (Clip+LLama)
•
Kosmos2 (Microsoft)
•
Idefics (Huggingface)
어려운 & 오류 케이스 분석
특히 경량 모델 기준
•
Counting Questions
•
Visibility (얼굴이 보이는지)
•
Relative Location (left-right, up-down)
•
Text(Honorable mention: clevr dataset)
→ 토큰나이저에 패치로 넣고 하는데 이것은 충분하지 않다.
→ 이미지에도 토크나이저가 중요하다. Textok, ViT
VOXEL51 → 검출 툴 (PoC단계에서)
AI 개발, ‘과제’를 넘어 ‘서비스’로
어떻게 모델 성능을 높힐 것인가 or 우리 기술로 고객의 어떤 문제를 해결할 것인가
•
AI 성공 = [세계 수준의 기술력] x [현장을 관통하는 문제정의 능력]
→ 얼마나 잘 푸는가(모델 성능) - 어떤 문제를 푸는가(문제 정의)
•
어떤 문제를 푸는가? → 문제 정의? → 데이터 사이언티스트 뽑으면 문제해결? (X)
•
모델 배포 = 프로젝트 종료?
•
API 비용 ↓ → AI 기능 남발 → 운영 복잡도 ↑
•
‘과제’적 접근 vs ‘서비스’적 접근
Demo와 Production의 간극
•
Demo를 넘어서 Production으로
•
SOTA 점수 포화 & Test-set leakage
문제 전략 구현
•
무엇을 해결하나? (문제)
•
어떤 각도로 풀어볼까? (전략 방향)
•
어떻게 빠르게 학습, 개선할까? (구현 방안)
전통적 벤치마크의 구조적 한계
•
Test-set Leakage
•
평균의 함정 - 최악 1%가 신뢰도 결정
•
정적 평가 vs 현실 변화
무엇을 측정할 것인가?
•
Accuracy: 정확한 정보를 제공하는가?
•
Latency: 사용자가 이탈하지 않을 속도인가?
•
Cost: 이 품질을 유지하는 데 드는 API 비용이 합리적인가?
•
Safety: 어뷰징 및 유해성으로부터 안전한가?
Context(RAG)만으로 충분한가? SFT는 언제 해야 할까?
•
Garbage in, Garbage out: Feature(기능), Scenarios(상황), Personas(사용자)를 고려하여 입체적으로 구성
•
Human Annotation: 정성적/주관적 품질 평가에 필수
•
Programmatic Scorer: 정량적/자동화된 평가 (LLM as a Judge)
AI는 서비스다 ㅡ 끝이 아닌 시작
•
벤치마크만으로 설명 안 되는 가치가 있다.