프로필사진

Paper Tale/Top ML Papers of the Week

🥇 이주의 ML 논문 (2023-04-03 ~ 2023-04-09)

다각 2023. 12. 12. 08:34

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크 The top ML Papers of the Week (Apr 3 - Apr 9)에서 확인할 수 있습니다.

 

1) Segment Anything Model - 이미지 분할(image segmentation)을 위한 기초 모델을 수립하기 위한 리소스 세트를 제시. 현존하는 데이터셋 중 가장 큰 세그멘테이션 데이터셋으로, 11백만 개의 라이선스를 받은 이미지에서 추출한 10억 개가 넘는 마스크를 포함하고 있음. 모델의 제로샷 성능은 지도 학습 결과(fully supervised)와 경쟁력이 있거나 더 뛰어날 수 있음 (paper)


2) Instruction Tuning with GPT-4 - GPT-4-LLM을 활용한 Instruction Tuning 소개. 이는 GPT-4를 활용하여 LLM fine-tuning을 위한 지시어 따르기 데이터(instruction-following data)를 생성하기 위한 "첫 시도"로, 데이터셋은 52,000개의 고유한 영어, 중국어 지시어 따르기 데이터를 포함. 이 데이터셋은 LLaMA 모델을 지시어 튜닝하여 새로운 작업에서 우수한 제로샷 성능을 얻을 수 있도록 함 (paper)

 

3) 8 Things to Know about LLMs - LLM의 능력과 제한 사항에 대한 중요한 고려 사항에 대한 논의 (paper)

 

4) A Survey of LLMs - 대형 언어 모델에 대한 새로운 50 페이지짜리 서베이 논문 (paper)

 

5) Baize - LoRA로 파인튜닝된 오픈 소스 챗 모델. ChatGPT가 자체적으로 대화를 나누면서 생성된 10만 건의 대화를 활용하며, 7B, 13B 및 30B 파라미터 모델과 함께 대화 셋을 공개 (paper)

 

6) MACHIAVELLI - LLM의 능력과 부도덕한 행동을 평가하기 위한 134개의 텍스트 기반 끝없는 게임(Choose-Your-Own-Adventure games)의 새로운 벤치마크 (paper)

 

7) Better Language Models of Code through Self-Improvement - 사전 훈련과 미세 조정 과정을 통해 얻은 지식으로 가상 데이터를 생성하고 다음 단계의 훈련 데이터셋에 추가함으로, 코드 관련 생성 작업을 사용하여 다양한 프레임워크의 성능을 향상시킬 수 있음을 증명 (paper)


8) Summary of ChatGPT/GPT-4 Research - ChatGPT와 GPT-4의 응용의 개요로, 194 편의 관련 논문을 분석하며 능력, 제한 사항, 우려 사항 등에 대해 논의 (paper)

 

9) Pythia - 훈련 방식과 크기에 걸쳐 LLM을 분석하기 위한 스위트(suite)로, 70M에서 12B 파라미터까지 다양한 크기의 공개된 데이터로 훈련된 16개 LLM이 포함됨 (paper)


10) SegGPT - 다양한 종류의 데이터를 지원하는 컨텍스트 내 프레임워크(in-context framework)를 통해 분할 작업(segmentation task)을 통합하는 범용 모델 (paper)