프로필사진

Paper Tale/Top ML Papers of the Week

🥇 이주의 ML 논문 (2023-05-01 ~ 2023-05-07)

다각 2023. 12. 20. 08:26

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크 The top ML Papers of the Week (May 1 - May 7)에서 확인할 수 있습니다.

 

1) scGPT - 단일 세포 생물학을 위해 1000만 개의 세포에 대해 사전 훈련된 기본 대형 언어 모델 (paper | tweet)

2) GPTutor - 코드 설명을 위한 ChatGPT 기반 도구로서 VSCode 확장 프로그램으로 제공됨. 일반 ChatGPT 및 Copilot보다 더 간결하고 정확한 설명을 제공한다고 주장하며, 프롬프트 엔지니어링을 통해 성능을 높이고 사용자 맞춤형으로 제공됨. 더 관련성 있는 코드를 프롬프트에 사용하도록 프로그래밍되어 있음 (paper | tweet)

3) Shap-E - 3D 에셋을 위한 조건부 생성 모델로, 이전의 3D 생성 모델과 달리 이 모델은 텍스처가 입혀진 메시 및 신경 방사 필드(neural radiance field)를 렌더링할 수 있게 하는 암시적 함수를 생성 (paper | tweet)

4) Are Emergent Abilities of LLMs a Mirage? - LLM의 신흥 능력에 대한 대안적 설명을 제시. 기존 주장은 연구자의 분석에 의한 것이며 특정 작업에서 모델 동작의 본질적인 변화가 아니었음 (paper | tweet)

5) Interpretable ML for Science - 과학을 위한 실용적인 기호 회귀 작업을 위한 오픈 소스 라이브러리 PySR. 고성능 분산 백엔드에 기반하며 여러 딥러닝 패키지와 상호 작용함. 또한 "EmpiricalBench"라는 새로운 벤치마크를 공개하여 과학에서 기호 회귀 알고리즘의 적용 가능성을 정량적으로 측정 (paper | tweet)


6) PMC-LLaMA - 480만 건의 의학 논문으로 미세조정된 LLaMA 모델로 의학 도메인에서의 기능을 향상시키고 생체 의학 QA 벤치마크에서 높은 성능을 달성 (paper | tweet)

7) Distilling Step-by-Step - LLM에서 근거를 추출하여 더 작은 모델을 훈련시켜 큰 언어 모델보다 적은 훈련 데이터로 더 나은 성능을 내도록 하는 미세조정 혹은 지식 증류 메커니즘 (paper | tweet)

8) Poisoning LLMs During Instruction Tuning - LLM을 지시 튜닝할 때 독소 예제를 데이터셋에 넣을 때 적대적 표현(adversaries)이 LLM에게 독소로 작용할 수 있음을 보임. 서로 다른 독립된 작업에서 악화된 결과(degenerate output)가 나타남 (paper | tweet)

9) Unlimiformer - 외부 데이터 저장소로 사전 훈련된 인코더-디코더 트랜스포머를 확장하여 무제한 길이의 입력을 지원하는 긴 범위의 트랜스포머를 제안합니다. 긴 문서 요약에 유용하며, 검색 강화 LLM의 성능을 향상시키는 데 사용될 수 있음 (paper | tweet)


10) Self-Notes - LLM이 추론하고 기억하도록 하여 입력 시퀀스에서 벗어나 명시적으로 "생각"할 수 있도록 하는 방법으로, 이는 LM이 정보를 다시 불러내고 추론을 즉석해서 실행할 수 있도록 함. 훈련 중에 본 적 없는 더 긴 시퀀스에 대해 더 잘 확장된다는 것을 실험을 통해 증명 (paper | tweet)