프로필사진

Paper Tale/Top ML Papers of the Week

🥇 이주의 ML 논문 (2023-05-08 ~ 2023-05-14)

다각 2024. 1. 1. 09:10

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크 The top ML Papers of the Week (May 5 - May 14)에서 확인할 수 있습니다.

 

1) LLM explains neurons in LLMs - GPT-4를 사용하여 LLM의 뉴런 동작에 대한 설명을 자동으로 작성하고 그 설명에 점수를 매기는 방법으로, 이는 향후 LLM의 해석 가능성을 향상시키고 잠재적으로 정렬 및 안전 문제를 감지하는 유망한 방법을 제공 (paper | tweet)

2) PaLM 2 - Bard와 PaLM API가 통합된 새로운 최첨단 언어 모델로서, GPT-4와 비교하여 수학적 추론에서 경쟁력 있는 성능을 나타냄. Flan-PaLM 2라는 instruction-tuned 모델은 MMLU 및 BIG-bench Hard와 같은 벤치마크에서 우수한 성능을 보임 (paper | tweet)

3) ImageBind - 동시에 여섯 가지 모달리티 간의 공동 임베딩 데이터를 학습하는 방법으로, 새로운 모달리티에 대한 제로샷 능력으로까지 확장되고 모달 간 질의(cross-modal retrieval)이나 산술적인 모달리티 구성(composing modalities with arithmetic), 교차 모달 감지(cross-modal detection)와 생성의 응용까지 포함 (paper | tweet)

4) TidyBot - 로봇이 LLM의 요약기능으로 도출한 언어 기반의 계획과 인식을 결합하여 미래 상호 작용에 적용 가능한 일반화된 사용자 기호를 추론할 수 있다는 것을 보임 (paper | tweet)

5) Unfaithful Explanations in Chain-of-Thought Prompting - CoT 설명이 모델의 예측에 대한 진짜 이유를 왜곡할 수 있다는 사실을 증명. 모델이 잘못된 답변에 편향되면 CoT애서 생성된 설명은 해당 답변을 지지하는 설명을 생성 (paper | tweet)

6) InstructBLIP - 사전 훈련된 BLIP-2 모델을 기반으로 한 시각-언어 지시 튜닝을 탐색하며, 13개의 홀드아웃 데이터셋에서 우수한 제로샷 성능을 보이며 BLIP-2 및 Flamingo를 능가 (paper | tweet)

7) Active Retrieval Augmented LLMs - LLM의 신뢰성을 향상시키기 위한 검색 증가 생성(retrieval augmented generation)을 시행한 FLARE를 소개. FLARE는 생성의 과정에서 검색할 시점과 무엇을 검색할지를 적극적으로 결정하게 되며, 긴 형식의 지식 집약적 생성 작업에서 우수하거나 경쟁력 있는 성능을 보여줌 (paper | tweet)


8) FrugalGPT - LLM 사용과 관련된 추론 비용을 줄이고 성능을 향상시키는 전략을 제시 (paper | tweet)

9) StarCoder - 15.5B 파라미터를 가진 오픈 액세스 LLM로서 8K 컨텍스트 길이를 가지며 80개 이상의 프로그래밍 언어에 걸쳐 대량의 코드로 훈련됨 (paper | tweet)

10) MultiModal-GPT - 인간과의 다중 회차(multi-round)의 대화를 위한 비전 언어 모델로서, OpenFlamingo에서 파인튜닝되었으며 언어 모델의 교차 어텐션과 셀프 어텐션 부분에 LoRA가 추가되었음 (paper | tweet)