프로필사진

Paper Tale 47

🥇 이주의 ML 논문 (2023-02-27 ~ 2023-03-05)

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크 The top ML Papers of the Week (Feb 27 - Mar 5)에서 확인할 수 있습니다. 1) Language Is Not All You Need - Kosmos-1 이라고 명명한 다중 모달 대형 언어 모델. 언어 이해, OCR-free NLP, 지각-언어 작업, 시각적 QA 등에서 탁월한 성능을 보임 (paper) 2) Comparing Brain Activations and Language Models - 인간의 뇌 활동이 현대 언어 모델의 활성화로 가장 잘 설명되며, 특히 긴 인풋 및 계층적 예측이 강화된 모델에서 더 잘 설명됨을 보임 (paper) 3) EvoPromptin..

🥇 이주의 ML 논문 (2023-02-20 ~ 2023-02-26)

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크 The top ML Papers of the Week (Feb 20 - Feb 26)에서 확인할 수 있습니다. 1) LLaMA - Meta AI에서 발표한 65B 파라미터의 파운데이션 모델로, 공개 데이터를 기반으로 하며 10배 작은 크기임에도 불구하고 대부분의 벤치마크에서 GPT-3를 능가함 (paper) 2) Composer - 수십억 개의 텍스트-이미지 쌍으로 훈련된 5B 파라미터의 모델로, 창조적이고 제어 가능한 확산 모델(diffusion model) (paper) 3) Hindsight Instruction Relabeling - 피드백을 통해 LLM을 훈련하는 방법(RLHF)에 대한 대체..

🥇 이주의 ML 논문 (2023-02-13 ~ 2023-02-19)

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크 The top ML Papers of the Week (Feb 13 - Feb 19)에서 확인할 수 있습니다. 1) Lion (EvoLved Sign Momentum) - Adam보다 메모리를 더 효율적으로 사용하는 간단하고 효과적인 최적화 알고리즘 (paper) 2) Transformer models: an introduction and catalog - 트랜스포머 모델에 대한 소개 및 목록 (paper) 3) pix2pix3D - 조절 가능한 사실적인 이미지 합성을 위해 neural radiance field로 확장된 3D 인식 조건부 생성 모델(3D-aware conditional generat..

🥇 이주의 ML 논문 (2023-02-06 ~ 2023-02-12)

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크The top ML Papers of the Week (Feb 6 - Feb 12)에서 확인할 수 있습니다. 1) Toolformer - 간단한 API 호출을 통해 외부 도구를 사용하는 방법을 스스로 학습하는 언어 모델을 소개 (paper) 2) Describe, Explain, Plan, and Select - 언어 모델을 오픈 월드 게임 플레이에 활용하는 방안을 제안 (paper) 3) A Categorical Archive of ChatGPT Failures - ChatGPT의 실패를 범주(추론, 사실 확인, 수학, 코딩 등)별로 종합 분석 (paper) 4) Hard Prompts Made Ea..

🥇 이주의 ML 논문 (2023-01-30 ~ 2023-02-05)

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크The top ML Papers of the Week (Jan 30 - Feb 5)에서 확인할 수 있습니다. 1) REPLUG - 검색 보강(retrieval-augmented) 언어 모델 프레임워크로, 리트리버(retriever)를 GPT-3와 같은 대규모 블랙박스 언어 모델에 적응시킴 (paper) 2) Extracting Training Data from Diffusion Models - 확산 기반(diffusion-based) 생성 모델이 훈련 데이터의 이미지를 기억하고 생성 시점에 이를 내보낼 수 있음을 증명 (paper) 3) The FLAN Collection - 태스크, 템플릿 및 고급 ..

🥇 이주의 ML 논문 (2023-01-23 ~ 2023-01-29)

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크The top ML Papers of the Week (Jan 23 - Jan 29)에서 확인할 수 있습니다. 1) MusicLM - 텍스트 설명에서 고품질 음악을 생성하기 위한 생성 모델 (paper | tweet) 2) H3 - 상태 공간 모델(state space model)과 언어 모델링의 어텐션 사이의 성능 및 하드웨어 이용 측면에서의 격차를 줄이기 위한 방법 (paper | tweet) 3) A Watermark for LLMs - 소유권이 있는 언어 모델을 위한 워터마킹 프레임워크 (paper | tweet) 4) Make-A-Video3D - 입력 텍스트에서 동적 장면을 생성하기 위한 새..

NMT에서 vocab size는 도대체 얼마로 해야 적당한가

이 글은 논문 Finding the Optimal Vocabulary Size for Neural Machine Translation을 읽고 리뷰한 글입니다. 0. 들어가며 인공지능을 만지다 보면 하이퍼파라미터에 대한 의문이 들 때가 있다. 도대체 이건 왜 이 숫자여야 하는가, 라는 원론적이고 당연한 물음이다. 하지만 돌아오는 대답은 늘, "이렇게 하면 좋다더라" "저렇게 하면 적당하다더라" 정도였다. 실제로 실무에서 하이퍼파라미터를 선정할 때도, 경험이나 trial-and-error로 나온 결론에 의존해서 선정할 때가 많았다. 하지만 다루는 데이터의 성격도, 사이즈도 다 다른데, 언제까지나 '좋다더라' 식으로 선정된 숫자가 베스트일 리는 없다. 기계번역기의 하이퍼파라미터에서 그 숫자에 제일 의문이 많이..

Paper Tale 2022.04.04