[Paper Review] DeepSeek-v3

작성자: beom_gi1013 작성일: 2025-08-26 06:31 조회: 156

1. 논문 제목
DeepSeek-V3 Technical Report

2. Overview
1. 논문 제목: DeepSeek-V3 Technical Report
2. 내용: DeepSeek-V3모델의 쓰인 Architecture인 Multi Head Latent Attention, DeepSeekMoE with Auxilary-Loss-Free Load Balancing에 대해서 알아보고, 다단계 학습 Pipeline과 추가학습 Task 구조, 컴퓨팅 자원 활용을 최적화하기 위해 쓰인 DualPipe와 FP8 Train에 대해 다룹니다.

3. 발표자 · 첨부파일
발표자: 전범기
발표형식: 세미나
발표일자: 2025-08-05
DeepSeek-v3.pptx

목록