기계를 키우는 법 배우기

MIT 뉴스 오피스 웹사이트에서 다운로드할 수 있는 이미지는 Creative Commons Attribution Non-Commercial No Derivatives 라이센스에 따라 비영리 단체, 언론 및 일반 대중에게 제공됩니다. 제공된 이미지를 크기에 맞게 자르는 것 외에는 변경할 수 없습니다. 이미지를 복제할 때는 크레디트 라인을 사용해야 합니다. 아래에 제공되지 않은 경우 이미지를 "MIT"로 표시하십시오.

이전 이미지 다음 이미지

OpenAI의 ChatGPT에 몇 가지 놀라운 기능이 있다는 것은 비밀이 아닙니다. 예를 들어, 챗봇은 셰익스피어 소네트와 유사한 시를 쓰거나 컴퓨터 프로그램의 코드를 디버그할 수 있습니다. 이러한 기능은 ChatGPT가 구축한 대규모 기계 학습 모델을 통해 가능해졌습니다. 연구자들은 이러한 유형의 모델이 충분히 커지면 놀라운 기능이 나타난다는 사실을 발견했습니다.

그러나 더 큰 모델은 훈련하는 데 더 많은 시간과 비용이 필요합니다. 훈련 과정에는 모델에 수천억 개의 예시를 보여주는 과정이 포함됩니다. 너무 많은 데이터를 수집하는 것은 그 자체로 복잡한 프로세스입니다. 그런 다음 수십억 개의 매개변수가 있을 수 있는 모델을 훈련하기 위해 며칠 또는 몇 주 동안 많은 강력한 컴퓨터를 실행하는 데 드는 금전적, 환경적 비용이 발생합니다.

"ChatGPT가 실행될 것으로 가정되는 규모의 훈련 모델은 단 한 번의 훈련 실행에 수백만 달러가 소요될 수 있는 것으로 추정됩니다. 이러한 훈련 방법의 효율성을 향상시켜 더 적은 비용으로 좋은 모델을 얻을 수 있습니까? 시간과 비용이 더 저렴합니까? 우리는 이전에 훈련된 더 작은 언어 모델을 활용하여 이를 수행할 것을 제안합니다."라고 MIT 전기 공학 및 컴퓨터 과학과 조교수이자 컴퓨터 과학 및 인공 지능 연구소 회원인 김윤은 말합니다. (CSAIL).

Kim과 그의 동료들은 이전 버전의 모델을 폐기하는 대신 이를 새 모델의 구성 요소로 사용합니다. 그들의 방법은 기계 학습을 사용하여 더 작은 모델이 이미 얻은 지식을 인코딩하는 방식으로 더 작은 모델에서 더 큰 모델을 "성장"시키는 방법을 학습합니다. 이를 통해 더 큰 모델을 더 빠르게 훈련할 수 있습니다.

그들의 기술은 새로운 모델을 처음부터 훈련하는 방법에 비해 대규모 모델을 훈련하는 데 필요한 계산 비용의 약 50%를 절약합니다. 또한 MIT 방법을 사용하여 훈련한 모델은 더 큰 모델을 더 빠르게 훈련할 수 있도록 더 작은 모델을 사용하는 다른 기술로 훈련한 모델과 같거나 더 나은 성능을 발휘했습니다.

거대한 모델을 훈련하는 데 걸리는 시간을 줄이면 연구자들이 더 적은 비용으로 더 빠르게 발전하는 동시에 훈련 과정에서 발생하는 탄소 배출량을 줄이는 데 도움이 될 수 있습니다. 또한 소규모 연구 그룹이 이러한 대규모 모델을 사용하여 작업할 수 있게 하여 잠재적으로 많은 새로운 발전의 문을 열 수 있습니다.

이 기술에 대한 논문의 수석 저자인 Kim은 "이러한 유형의 기술을 민주화하기 위해 교육 속도를 높이고 비용을 낮추는 것이 더욱 중요해질 것입니다."라고 말했습니다.

Kim과 그의 대학원생 Lucas Torroba Hennigen은 수석 저자인 텍사스 대학교 오스틴 대학원생 Peihao Wang 및 MIT-IBM Watson AI Lab 및 Columbia University의 다른 사람들과 함께 논문을 작성했습니다. 이 연구는 학습 표현에 관한 국제 회의에서 발표될 예정입니다.

클수록 좋습니다

ChatGPT의 핵심인 GPT-3과 같은 대규모 언어 모델은 변환기라는 신경망 아키텍처를 사용하여 구축됩니다. 인간의 두뇌를 대략적으로 기반으로 한 신경망은 상호 연결된 노드 또는 "뉴런"의 레이어로 구성됩니다. 각 뉴런에는 뉴런이 데이터를 처리하는 데 사용하는 훈련 과정 중에 학습된 변수인 매개변수가 포함되어 있습니다.

Transformer 아키텍처는 이러한 유형의 신경망 모델이 커질수록 훨씬 더 나은 결과를 얻을 수 있다는 점에서 독특합니다.

소식