현재 GPT-3와 같은 거대 언어 모델은 모델 스케일링 법칙에 따라 1000억에서 1조 파라미터 크기의 모델로 점점 크기가 증가하고 있습니다. 비단 언어 모델뿐 아니라 이미지와 음성 등 다양한 분야의 모델에 스케일링 법칙이 적용되고 있지만, 이런 거대한 ML 모델을 학습하는 데 필요한 정보와 기술은 부족한 상황입니다.
이 발표에서는 거대 ML 모델을 학습할 수 있는 기법을 자세히 설명합니다. 또한 현재 저희 팀에서 서비스하고 있는 AI-Text 필터링 모델을 거대 ML 모델로 학습하고, 모델 성능을 올렸던 경험을 공유하겠습니다.