Search

wandb meetup

대분류
기타
소분류
컨퍼런스 기록
최종 편집 일시
2025/07/15 11:37
생성 일시
2025/07/15 10:07
16 more properties

wandb

weight & biases
머신러닝 및 딥러닝 모델 개발 시 실험 과정을 쉽게 추적하고 시각화하며 관리할 수 있도록 돕는 MLOps(머신러닝 오퍼레이션) 플랫폼
텐서플로우의 텐서보드(Tensorboard)와 유사한 기능을 하지만, 파이토치(Pytorch), 케라스(Keras), Scikit-learn 등 다양한 프레임워크를 지원하여 확장성이 뛰어나다.

주요 기능

Wandb는 모델 개발의 전 과정을 지원하는 다양한 기능을 제공합니다.
실험 추적 및 시각화: 모델 학습 중 손실(loss), 정확도(accuracy)와 같은 지표를 실시간으로 추적하고 대시보드를 통해 시각화하여 여러 실험 결과를 손쉽게 비교할 수 있습니다.
하이퍼파라미터 튜닝 (Sweeps): 다양한 하이퍼파라미터 조합을 자동으로 테스트하여 최적의 값을 찾는 과정을 자동화하고 시각적으로 비교할 수 있습니다.
데이터셋 및 모델 버전 관리 (Artifacts): 실험에 사용된 데이터셋과 학습된 모델의 버전을 체계적으로 관리하여 실험의 재현성을 높입니다.
시스템 리소스 모니터링: 학습 과정에서 GPU 및 CPU 사용량, 메모리, 온도 등 시스템 리소스 상태를 모니터링할 수 있습니다.
협업 및 보고서 작성: 실험 결과를 문서화하고 팀원들과 쉽게 공유할 수 있는 리포트 기능을 제공하여 협업을 용이하게 합니다.

GenAI: Easy to demo, Hard to productionize

RAG Work

1.
Query
2.
Retrieve
3.
Generate
4.
Respond

Agentic RAG

Plan & Action
1.
Receive Query
2.
Clarify
3.
Add Context
4.
Plan tasks
5.
Search Sources
6.
Summarize info
7.
Cite Sources

Weave: From Trace to Evaluation

생성형 AI 워크플로우에서 생성되는 모든 정보를 실험부터 평가, 프로덕션 환경까지 체계적으로 관리할 수 있다.

Trace

모든 입/출력 데이터 자동 기록
쉽게 조작할 수 있는 TraceTree에 상세 정보 기록
레이턴시, 비용관련 기록 가능

Evaluation

고유 평가 방법
휴먼 피드백 가능
시스템 비교 보고서 자동 생성

시스템 구성요소의 버전 관리

Iteration

Playground

동일한 프롬프트에 대한 여러 모델의 출력 비교
팀단위 거버넌스 지원
직관적인 UI

Trace

Langsmith와 차이점
구성요소 관리
세그먼테이션 마스크 ON/OFF 가능

AI 이미지 에디터 사례로 보는 VLM

AI 이미지 추천

MD가 자동으로 이미지를 추천

Image + Text

1.
Image Captioning (Image → Text): 자유 양식 생성
2.
VQA (Image + Text → Text): 객관식, 자유양식
3.
Embedding Based (Image + Text → Score): CLIP, SIGLIP, ColPali, Col*
4.
VL(M) (Image + Text → Text + … → 자유양식, Structured Output (Instruction tuned)

답장 유형

Objective 객관적인 답 있음 Subjective 주관적인 답 포함
Freefrom
Multiple Choice
Yes/No
답 불가
중요 포인트 → Context 부여

모델 선택 방법

모델이 어떤 데이터로 훈련된
Flamingo(DeepMind)
BLIP계열 (Salesforce) 1→2→Instruct
Qwen계열 (Alibaba) 1 → 2 → 2.5
LLaVA계열 (Clip+LLama)
Kosmos2 (Microsoft)
Idefics (Huggingface)

어려운 & 오류 케이스 분석

특히 경량 모델 기준
Counting Questions
Visibility (얼굴이 보이는지)
Relative Location (left-right, up-down)
Text(Honorable mention: clevr dataset)
→ 토큰나이저에 패치로 넣고 하는데 이것은 충분하지 않다.
→ 이미지에도 토크나이저가 중요하다. Textok, ViT
VOXEL51 → 검출 툴 (PoC단계에서)

AI 개발, ‘과제’를 넘어 ‘서비스’로

어떻게 모델 성능을 높힐 것인가 or 우리 기술로 고객의 어떤 문제를 해결할 것인가

AI 성공 = [세계 수준의 기술력] x [현장을 관통하는 문제정의 능력]
→ 얼마나 잘 푸는가(모델 성능) - 어떤 문제를 푸는가(문제 정의)
어떤 문제를 푸는가? → 문제 정의? → 데이터 사이언티스트 뽑으면 문제해결? (X)
모델 배포 = 프로젝트 종료?
API 비용 ↓ → AI 기능 남발 → 운영 복잡도 ↑
‘과제’적 접근 vs ‘서비스’적 접근

Demo와 Production의 간극

Demo를 넘어서 Production으로
SOTA 점수 포화 & Test-set leakage

문제 전략 구현

무엇을 해결하나? (문제)
어떤 각도로 풀어볼까? (전략 방향)
어떻게 빠르게 학습, 개선할까? (구현 방안)

전통적 벤치마크의 구조적 한계

Test-set Leakage
평균의 함정 - 최악 1%가 신뢰도 결정
정적 평가 vs 현실 변화

무엇을 측정할 것인가?

Accuracy: 정확한 정보를 제공하는가?
Latency: 사용자가 이탈하지 않을 속도인가?
Cost: 이 품질을 유지하는 데 드는 API 비용이 합리적인가?
Safety: 어뷰징 및 유해성으로부터 안전한가?

Context(RAG)만으로 충분한가? SFT는 언제 해야 할까?

Garbage in, Garbage out: Feature(기능), Scenarios(상황), Personas(사용자)를 고려하여 입체적으로 구성
Human Annotation: 정성적/주관적 품질 평가에 필수
Programmatic Scorer: 정량적/자동화된 평가 (LLM as a Judge)

AI는 서비스다 ㅡ 끝이 아닌 시작

벤치마크만으로 설명 안 되는 가치가 있다.