[Paper Review] DeepSeek v1

작성자: beom_gi1013 작성일: 2025-12-06 09:38 조회: 190

1. 논문 제목
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

2. Overview
1. 논문 제목 DeepSeek LLM: Scaling Open-Source Language Models with Longtermism 링크(URL): https://arxiv.org/pdf/2401.02954 2. Overview a. 프로젝트 개요 * 사전 학습 데이터 규모 및 구성 * 아키텍처 기본 설계 방향 * 미세 조정(Fine-tuning) 전략 * 정렬(Alignment) 기법 b. 데이터 전처리 (Pretraining Data) * 중복 제거 (Deduplication) * 필터링 (Filtering) * 재혼합 (Remixing) c. 토크나이저 (Tokenizer) * BBPE 알고리즘 및 라이브러리 * 프리-토크나이제이션 (Pre-tokenization) * 숫자 처리 방식 * 어휘(Vocabulary) 크기 및 구성 d. 모델 아키텍처 (Architecture) * Pre-Norm 및 RMSNorm * SwiGLU 활성화 함수 * Rotary Embedding (RoPE) 위치 인코딩 * Grouped-Query Attention (GQA) * 모델 계층(Layer) 및 파라미터 설계 e. 학습 설정 및 하이퍼파라미터 * 초기화 및 옵티마이저 (AdamW) * 다단계 학습률 스케줄러 (Multi-step LR Scheduler) * 단계별 학습 비율 및 배치 크기 * 지속적 훈련(Continual Training) 효율성 f. 인프라스트럭처 및 훈련 프레임워크 * HAI-LLM 프레임워크 및 3D 병렬화 * 연산 최적화 (Flash Attention, ZeRO-1) * 훈련 안정성 및 체크포인트 관리 * 정밀도(Precision) 및 메모리 최적화 전략 g. 스케일링 법칙 (Scaling Laws) * 스케일링 법칙의 정의 및 수식화 * 하이퍼파라미터 스케일링 (학습률, 배치 크기) * 모델 및 데이터 스케일링 (Non-embedding FLOPs 중심) * 데이터 품질에 따른 자원 할당 전략

3. 발표자 · 첨부파일
발표자: 전범기
발표형식: 세미나
발표일자: 2025-12-19
DeepSeek v1.pdf

목록