신뢰성이 필요한 AI 프로덕트를 출시할 때는 사전에 악성 입력값에 대한 내성과 윤리적 관점의 검증이 필요합니다. 여러 조직에서 AI 신뢰성과 윤리를 강조하는 상황에서 검증 항목과 툴 정비는 업계 전체의 과제일 것입니다.
이 발표에서는 신뢰성 검증 항목 선정과 검증 툴 개발에 관해 주로 언어 모델을 주제로 한 활동을 소개합니다. 각국, 각사의 보고서를 참고해 검증 항목을 설정했고, 적대적인 기계 학습을 이용한 스트레스 테스트를 검증 툴로 개발했습니다. 공평성, 유해성, 개인정보 취급 등 여러 관점에서 AI 신뢰성을 가시화하며, 적대적 학습에 의해 AI에 입력하는 테스트 케이스 생성이 효율적입니다.
AI 윤리나 신뢰성에 관심 있거나 공부하실 분은 많은 참고가 될 내용이니 꼭 참가해 주시기 바랍니다.