wandb meetup

대분류

기타

소분류

컨퍼런스 기록

최종 편집 일시

2025/07/15 11:37

생성 일시

2025/07/15 10:07

16 more properties

wandb

weight & biases

머신러닝 및 딥러닝 모델 개발 시 실험 과정을 쉽게 추적하고 시각화하며 관리할 수 있도록 돕는 MLOps(머신러닝 오퍼레이션) 플랫폼

텐서플로우의 텐서보드(Tensorboard)와 유사한 기능을 하지만, 파이토치(Pytorch), 케라스(Keras), Scikit-learn 등 다양한 프레임워크를 지원하여 확장성이 뛰어나다.

주요 기능

Wandb는 모델 개발의 전 과정을 지원하는 다양한 기능을 제공합니다.

•

실험 추적 및 시각화: 모델 학습 중 손실(loss), 정확도(accuracy)와 같은 지표를 실시간으로 추적하고 대시보드를 통해 시각화하여 여러 실험 결과를 손쉽게 비교할 수 있습니다.

•

하이퍼파라미터 튜닝 (Sweeps): 다양한 하이퍼파라미터 조합을 자동으로 테스트하여 최적의 값을 찾는 과정을 자동화하고 시각적으로 비교할 수 있습니다.

•

데이터셋 및 모델 버전 관리 (Artifacts): 실험에 사용된 데이터셋과 학습된 모델의 버전을 체계적으로 관리하여 실험의 재현성을 높입니다.

•

시스템 리소스 모니터링: 학습 과정에서 GPU 및 CPU 사용량, 메모리, 온도 등 시스템 리소스 상태를 모니터링할 수 있습니다.

•

협업 및 보고서 작성: 실험 결과를 문서화하고 팀원들과 쉽게 공유할 수 있는 리포트 기능을 제공하여 협업을 용이하게 합니다.

GenAI: Easy to demo, Hard to productionize

RAG Work

Query

Retrieve

Generate

Respond

Agentic RAG

Plan & Action

Receive Query

Clarify

Add Context

Plan tasks

Search Sources

Summarize info

Cite Sources

Weave: From Trace to Evaluation

생성형 AI 워크플로우에서 생성되는 모든 정보를 실험부터 평가, 프로덕션 환경까지 체계적으로 관리할 수 있다.

Trace

•

모든 입/출력 데이터 자동 기록

•

쉽게 조작할 수 있는 TraceTree에 상세 정보 기록

•

레이턴시, 비용관련 기록 가능

Evaluation

•

고유 평가 방법

•

휴먼 피드백 가능

•

시스템 비교 보고서 자동 생성

시스템 구성요소의 버전 관리

Iteration

Playground

•

동일한 프롬프트에 대한 여러 모델의 출력 비교

•

팀단위 거버넌스 지원

•

직관적인 UI

Trace

•

Langsmith와 차이점

◦

구성요소 관리

◦

세그먼테이션 마스크 ON/OFF 가능

AI 이미지 에디터 사례로 보는 VLM

AI 이미지 추천

•

MD가 자동으로 이미지를 추천

Image + Text

Image Captioning (Image → Text): 자유 양식 생성

VQA (Image + Text → Text): 객관식, 자유양식

Embedding Based (Image + Text → Score): CLIP, SIGLIP, ColPali, Col*

VL(M) (Image + Text → Text + … → 자유양식, Structured Output (Instruction tuned)

답장 유형

Objective 객관적인 답 있음 Subjective 주관적인 답 포함

•

Freefrom

•

Multiple Choice

•

Yes/No

•

답 불가

중요 포인트 → Context 부여

모델 선택 방법

•

모델이 어떤 데이터로 훈련된

•

Flamingo(DeepMind)

•

BLIP계열 (Salesforce) 1→2→Instruct

•

Qwen계열 (Alibaba) 1 → 2 → 2.5

•

LLaVA계열 (Clip+LLama)

•

Kosmos2 (Microsoft)

•

Idefics (Huggingface)

어려운 & 오류 케이스 분석

특히 경량 모델 기준

•

Counting Questions

•

Visibility (얼굴이 보이는지)

•

Relative Location (left-right, up-down)

•

Text(Honorable mention: clevr dataset)

→ 토큰나이저에 패치로 넣고 하는데 이것은 충분하지 않다.

→ 이미지에도 토크나이저가 중요하다. Textok, ViT

VOXEL51 → 검출 툴 (PoC단계에서)

AI 개발, ‘과제’를 넘어 ‘서비스’로

어떻게 모델 성능을 높힐 것인가 or 우리 기술로 고객의 어떤 문제를 해결할 것인가

•

AI 성공 = [세계 수준의 기술력] x [현장을 관통하는 문제정의 능력]

→ 얼마나 잘 푸는가(모델 성능) - 어떤 문제를 푸는가(문제 정의)

•

어떤 문제를 푸는가? → 문제 정의? → 데이터 사이언티스트 뽑으면 문제해결? (X)

•

모델 배포 = 프로젝트 종료?

•

API 비용 ↓ → AI 기능 남발 → 운영 복잡도 ↑

•

‘과제’적 접근 vs ‘서비스’적 접근

Demo와 Production의 간극

•

Demo를 넘어서 Production으로

•

SOTA 점수 포화 & Test-set leakage

문제 전략 구현

•

무엇을 해결하나? (문제)    

•

어떤 각도로 풀어볼까? (전략 방향)

•

어떻게 빠르게 학습, 개선할까? (구현 방안)

전통적 벤치마크의 구조적 한계

•

Test-set Leakage

•

평균의 함정 - 최악 1%가 신뢰도 결정

•

정적 평가 vs 현실 변화

무엇을 측정할 것인가?

•

Accuracy: 정확한 정보를 제공하는가?

•

Latency: 사용자가 이탈하지 않을 속도인가?

•

Cost: 이 품질을 유지하는 데 드는 API 비용이 합리적인가?

•

Safety: 어뷰징 및 유해성으로부터 안전한가?

Context(RAG)만으로 충분한가? SFT는 언제 해야 할까?

•

Garbage in, Garbage out: Feature(기능), Scenarios(상황), Personas(사용자)를 고려하여 입체적으로 구성

•

Human Annotation: 정성적/주관적 품질 평가에 필수

•

Programmatic Scorer: 정량적/자동화된 평가 (LLM as a Judge)

AI는 서비스다 ㅡ 끝이 아닌 시작

•

벤치마크만으로 설명 안 되는 가치가 있다.