1. 논문 제목: DeepSeek-V3 Technical Report
2. 내용: DeepSeek-V3모델의 쓰인 Architecture인 Multi Head Latent Attention, DeepSeekMoE with Auxilary-Loss-Free Load Balancing에 대해서 알아보고, 다단계 학습 Pipeline과 추가학습 Task 구조, 컴퓨팅 자원 활용을 최적화하기 위해 쓰인 DualPipe와 FP8 Train에 대해 다룹니다.