[Paper Review] DeepSeek v1

작성자: beom_gi1013 작성일: 2025-12-06 09:38 조회: 63

1. 논문 제목
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

2. Overview
1. 논문 제목
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
링크(URL): https://arxiv.org/pdf/2401.02954

2. Overview

a. 프로젝트 개요
* 사전 학습 데이터 규모 및 구성
* 아키텍처 기본 설계 방향
* 미세 조정(Fine-tuning) 전략
* 정렬(Alignment) 기법

b. 데이터 전처리 (Pretraining Data)
* 중복 제거 (Deduplication)
* 필터링 (Filtering)
* 재혼합 (Remixing)

c. 토크나이저 (Tokenizer)
* BBPE 알고리즘 및 라이브러리
* 프리-토크나이제이션 (Pre-tokenization)
* 숫자 처리 방식
* 어휘(Vocabulary) 크기 및 구성

d. 모델 아키텍처 (Architecture)
* Pre-Norm 및 RMSNorm
* SwiGLU 활성화 함수
* Rotary Embedding (RoPE) 위치 인코딩
* Grouped-Query Attention (GQA)
* 모델 계층(Layer) 및 파라미터 설계

e. 학습 설정 및 하이퍼파라미터
* 초기화 및 옵티마이저 (AdamW)
* 다단계 학습률 스케줄러 (Multi-step LR Scheduler)
* 단계별 학습 비율 및 배치 크기
* 지속적 훈련(Continual Training) 효율성

f. 인프라스트럭처 및 훈련 프레임워크
* HAI-LLM 프레임워크 및 3D 병렬화
* 연산 최적화 (Flash Attention, ZeRO-1)
* 훈련 안정성 및 체크포인트 관리
* 정밀도(Precision) 및 메모리 최적화 전략

g. 스케일링 법칙 (Scaling Laws)
* 스케일링 법칙의 정의 및 수식화
* 하이퍼파라미터 스케일링 (학습률, 배치 크기)
* 모델 및 데이터 스케일링 (Non-embedding FLOPs 중심)
* 데이터 품질에 따른 자원 할당 전략

3. 발표자 · 첨부파일
발표자: 전범기
발표형식: 세미나
발표일자: 2025-12-19
DeepSeek v1.pdf

목록