1. 논문 제목
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence
논문 링크:
https://arxiv.org/abs/2401.14196
Efficient Training of Language Models to Fill in the Middle
논문 링크:
https://arxiv.org/abs/2207.14255
Neural Machine Translation of Rare Words with Subword Units
논문 링크:
https://arxiv.org/abs/1508.07909
2. Overview
a. DeepSeek-Coder 모델 구성
b. 학습 데이터셋의 구성
c. 학습 전략 설계
d. Tokenizer 설계
e. 그 외 설계
f. 결과
3. 발표 자료
하단 첨부