프로필사진

전체 글 83

🥇 이주의 ML 논문 (2023-03-13 ~ 2023-03-19)

1) GPT-4 - 넓은 범용 지식과 문제 해결 능력을 갖춘 대규모 멀티모달 모델 (paper)2) LERF (Language Embedded Radiance Fields) - CLIP과 같은 모델의 언어 임베딩을 NeRF로 그라운딩하는 방법으로, 3D에서 개방형 언어 쿼리를 가능하게 함 (paper)3) An Overview of Language Models - 언어 모델의 최근 개발 동향과 앞으로의 연구 방향에 대한 개요로 언어 단위, 구조, 훈련 방법, 평가 및 응용 프로그램과 같은 주제도 포함되어 있음 (paper)4) Tuned Lens - 언어 모델의 예측을 트랜스포마의 레이어별 전개 과정을 따라가며 추적할 수 있는 해석 방법 (paper)5) MIM (Meet in the Middle) - ..

🥇 이주의 ML 논문 (2023-03-06 ~ 2023-03-12)

1) PaLM-E - 실제 세상의 지속적인 센서 모달리티(real-world continuous sensor modalities)를 통합한 구체화된 LM으로, 로봇 조작 계획, 시각적 QA 및 기타 실체 추론 작업을 수행 (paper | demo)2) Prismer - 도메인 전문가 앙상블에 기반한 파라미터 효율적인 비전-언어 모델로, 다양한 비전-언어 추론 작업에 전문가 지식을 효과적으로 활용 (paper | code)3) Visual ChatGPT - ChatGPT와 다양한 시각 기반 모델을 연결하여 사용자가 언어 형식을 넘어 ChatGPT와 상호 작용할 수 있음 (paper | code)4) A History of Generative AI - GAN에서 ChatGPT까지 생성적 AI의 개요 (pap..

🥇 이주의 ML 논문 (2023-02-27 ~ 2023-03-05)

1) Language Is Not All You Need - Kosmos-1 이라고 명명한 다중 모달 대형 언어 모델. 언어 이해, OCR-free NLP, 지각-언어 작업, 시각적 QA 등에서 탁월한 성능을 보임 (paper)2) Comparing Brain Activations and Language Models - 인간의 뇌 활동이 현대 언어 모델의 활성화로 가장 잘 설명되며, 특히 긴 인풋 및 계층적 예측이 강화된 모델에서 더 잘 설명됨을 보임 (paper) 3) EvoPrompting - 진화적 프롬프트 엔지니어링과 소프트 프롬프트 튜닝을 결합하여 도출한 고성능 모델로, 문맥 내 예제(in-context examples)를 개선하기 위해 퓨샷 프롬프팅(few-shot prompting)을 활용하..

🥇 이주의 ML 논문 (2023-02-20 ~ 2023-02-26)

1) LLaMA - Meta AI에서 발표한 65B 파라미터의 파운데이션 모델로, 공개 데이터를 기반으로 하며 10배 작은 크기임에도 불구하고 대부분의 벤치마크에서 GPT-3를 능가함 (paper)2) Composer - 수십억 개의 텍스트-이미지 쌍으로 훈련된 5B 파라미터의 모델로, 창조적이고 제어 가능한 확산 모델(diffusion model) (paper)3) Hindsight Instruction Relabeling - 피드백을 통해 LLM을 훈련하는 방법(RLHF)에 대한 대체 알고리즘으로, 더 나은 정렬(alignment)를 위해 피드백을 원본 피드백으로 레이블을 다시 지정하고 모델을 지도 학습으로 훈련함으로써 지침(instructuion)으로 변환하는 방식을 채택 (paper)4) Acti..

🥇 이주의 ML 논문 (2023-02-13 ~ 2023-02-19)

1) Lion (EvoLved Sign Momentum) - Adam보다 메모리를 더 효율적으로 사용하는 간단하고 효과적인 최적화 알고리즘 (paper)2) Transformer models: an introduction and catalog - 트랜스포머 모델에 대한 소개 및 목록 (paper)3) pix2pix3D - 조절 가능한 사실적인 이미지 합성을 위해 neural radiance field로 확장된 3D 인식 조건부 생성 모델(3D-aware conditional generative model) (paper)4) Moral Self-Correction in Large Language Models - RLHF로 훈련된 언어 모델이 도덕적 자기 교정 능력을 갖고 있는 강력한 증거를 발견한 논문으로..

🥇 이주의 ML 논문 (2023-02-06 ~ 2023-02-12)

1) Toolformer - 간단한 API 호출을 통해 외부 도구를 사용하는 방법을 스스로 학습하는 언어 모델을 소개 (paper)2) Describe, Explain, Plan, and Select - 언어 모델을 오픈 월드 게임 플레이에 활용하는 방안을 제안 (paper)3) A Categorical Archive of ChatGPT Failures - ChatGPT의 실패를 범주(추론, 사실 확인, 수학, 코딩 등)별로 종합 분석 (paper)4) Hard Prompts Made Easy - 효율적인 기울기 기반 최적화를 통해 어려운 텍스트 프롬프트를 최적화 (paper)5) Data Selection for LMs - LM의 다운스트림 성능을 개선하기 위해 중요도 재샘플링 알고리즘(importan..

🥇 이주의 ML 논문 (2023-01-30 ~ 2023-02-05)

1) REPLUG - 검색 보강(retrieval-augmented) 언어 모델 프레임워크로, 리트리버(retriever)를 GPT-3와 같은 대규모 블랙박스 언어 모델에 적응시킴 (paper)2) Extracting Training Data from Diffusion Models - 확산 기반(diffusion-based) 생성 모델이 훈련 데이터의 이미지를 기억하고 생성 시점에 이를 내보낼 수 있음을 증명 (paper)3) The FLAN Collection - 태스크, 템플릿 및 고급 instruction-tuned 모델을 사용할 수 있도록 더 확장된 공개 컬렉션을 출시 (paper)4) Multimodal Chain-of-Thought Reasoning - 시각적 특징을 통합하여 다중 모달에서 생..

🥇 이주의 ML 논문 (2023-01-23 ~ 2023-01-29)

1) MusicLM - 텍스트 설명에서 고품질 음악을 생성하기 위한 생성 모델 (paper | tweet)2) H3 - 상태 공간 모델(state space model)과 언어 모델링의 어텐션 사이의 성능 및 하드웨어 이용 측면에서의 격차를 줄이기 위한 방법 (paper | tweet)3) A Watermark for LLMs - 소유권이 있는 언어 모델을 위한 워터마킹 프레임워크 (paper | tweet)4) Make-A-Video3D - 입력 텍스트에서 동적 장면을 생성하기 위한 새로운 text-to-4D 모델 (paper | tweet)5) ClimaX - 날씨 및 기후를 위한 기반 모델로, 다양한 대기과학 작업을 수행 (paper | tweet)6) Open Problems in Applied ..

NMT에서 vocab size는 도대체 얼마로 해야 적당한가

이 글은 논문 Finding the Optimal Vocabulary Size for Neural Machine Translation을 읽고 리뷰한 글입니다. 0. 들어가며 인공지능을 만지다 보면 하이퍼파라미터에 대한 의문이 들 때가 있다. 도대체 이건 왜 이 숫자여야 하는가, 라는 원론적이고 당연한 물음이다. 하지만 돌아오는 대답은 늘, "이렇게 하면 좋다더라" "저렇게 하면 적당하다더라" 정도였다. 실제로 실무에서 하이퍼파라미터를 선정할 때도, 경험이나 trial-and-error로 나온 결론에 의존해서 선정할 때가 많았다. 하지만 다루는 데이터의 성격도, 사이즈도 다 다른데, 언제까지나 '좋다더라' 식으로 선정된 숫자가 베스트일 리는 없다. 기계번역기의 하이퍼파라미터에서 그 숫자에 제일 의문이 많이..

[객체 지향 프로그래밍] SOLID 원칙

* 이 글은 코드잇의 코스를 수강하고 정리한 글입니다. * 나중에라도 제가 참고하기 위해 정리해 두었으며, 모든 내용을 적은 것이 아닌, 필요하다고 생각되는 부분만 추려서 정리한 것임을 미리 밝힙니다. SOLID 원칙을 지키면 유연하고 유지보수하기 쉬운 견고한 코들르 쓸 수 있다고 한다. 프로그램의 크기가 커질 수록 SOLID 원칙을 잘 지키는 것이 중요하다. 하지만 작고 간단한 프로그램을 만드는데 이 원칙을 지키면 오히려 시간 낭비가 될 수도 있다. SOLID 원칙에는 아래 다섯가지가 있다. 1. 단일 책임 원칙 (Single Responsibility Principle) : 모든 클래스는 단 한가지의 책임만을 갖고, 클래스 안에 정의되어 있는 모든 기능은 이 하나의 책임을 수행하는데 집중되어 있어야 ..