프로필사진

분류 전체보기 81

🥇 이주의 ML 논문 (2023-02-27 ~ 2023-03-05)

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크 The top ML Papers of the Week (Feb 27 - Mar 5)에서 확인할 수 있습니다. 1) Language Is Not All You Need - Kosmos-1 이라고 명명한 다중 모달 대형 언어 모델. 언어 이해, OCR-free NLP, 지각-언어 작업, 시각적 QA 등에서 탁월한 성능을 보임 (paper) 2) Comparing Brain Activations and Language Models - 인간의 뇌 활동이 현대 언어 모델의 활성화로 가장 잘 설명되며, 특히 긴 인풋 및 계층적 예측이 강화된 모델에서 더 잘 설명됨을 보임 (paper) 3) EvoPromptin..

🥇 이주의 ML 논문 (2023-02-20 ~ 2023-02-26)

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크 The top ML Papers of the Week (Feb 20 - Feb 26)에서 확인할 수 있습니다. 1) LLaMA - Meta AI에서 발표한 65B 파라미터의 파운데이션 모델로, 공개 데이터를 기반으로 하며 10배 작은 크기임에도 불구하고 대부분의 벤치마크에서 GPT-3를 능가함 (paper) 2) Composer - 수십억 개의 텍스트-이미지 쌍으로 훈련된 5B 파라미터의 모델로, 창조적이고 제어 가능한 확산 모델(diffusion model) (paper) 3) Hindsight Instruction Relabeling - 피드백을 통해 LLM을 훈련하는 방법(RLHF)에 대한 대체..

🥇 이주의 ML 논문 (2023-02-13 ~ 2023-02-19)

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크 The top ML Papers of the Week (Feb 13 - Feb 19)에서 확인할 수 있습니다. 1) Lion (EvoLved Sign Momentum) - Adam보다 메모리를 더 효율적으로 사용하는 간단하고 효과적인 최적화 알고리즘 (paper) 2) Transformer models: an introduction and catalog - 트랜스포머 모델에 대한 소개 및 목록 (paper) 3) pix2pix3D - 조절 가능한 사실적인 이미지 합성을 위해 neural radiance field로 확장된 3D 인식 조건부 생성 모델(3D-aware conditional generat..

🥇 이주의 ML 논문 (2023-02-06 ~ 2023-02-12)

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크The top ML Papers of the Week (Feb 6 - Feb 12)에서 확인할 수 있습니다. 1) Toolformer - 간단한 API 호출을 통해 외부 도구를 사용하는 방법을 스스로 학습하는 언어 모델을 소개 (paper) 2) Describe, Explain, Plan, and Select - 언어 모델을 오픈 월드 게임 플레이에 활용하는 방안을 제안 (paper) 3) A Categorical Archive of ChatGPT Failures - ChatGPT의 실패를 범주(추론, 사실 확인, 수학, 코딩 등)별로 종합 분석 (paper) 4) Hard Prompts Made Ea..

🥇 이주의 ML 논문 (2023-01-30 ~ 2023-02-05)

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크The top ML Papers of the Week (Jan 30 - Feb 5)에서 확인할 수 있습니다. 1) REPLUG - 검색 보강(retrieval-augmented) 언어 모델 프레임워크로, 리트리버(retriever)를 GPT-3와 같은 대규모 블랙박스 언어 모델에 적응시킴 (paper) 2) Extracting Training Data from Diffusion Models - 확산 기반(diffusion-based) 생성 모델이 훈련 데이터의 이미지를 기억하고 생성 시점에 이를 내보낼 수 있음을 증명 (paper) 3) The FLAN Collection - 태스크, 템플릿 및 고급 ..

🥇 이주의 ML 논문 (2023-01-23 ~ 2023-01-29)

아래의 글은 NLP Newsletter by Elvis에서 허락을 받고 가져온 글이며, 원문은 다음 링크The top ML Papers of the Week (Jan 23 - Jan 29)에서 확인할 수 있습니다. 1) MusicLM - 텍스트 설명에서 고품질 음악을 생성하기 위한 생성 모델 (paper | tweet) 2) H3 - 상태 공간 모델(state space model)과 언어 모델링의 어텐션 사이의 성능 및 하드웨어 이용 측면에서의 격차를 줄이기 위한 방법 (paper | tweet) 3) A Watermark for LLMs - 소유권이 있는 언어 모델을 위한 워터마킹 프레임워크 (paper | tweet) 4) Make-A-Video3D - 입력 텍스트에서 동적 장면을 생성하기 위한 새..

NMT에서 vocab size는 도대체 얼마로 해야 적당한가

이 글은 논문 Finding the Optimal Vocabulary Size for Neural Machine Translation을 읽고 리뷰한 글입니다. 0. 들어가며 인공지능을 만지다 보면 하이퍼파라미터에 대한 의문이 들 때가 있다. 도대체 이건 왜 이 숫자여야 하는가, 라는 원론적이고 당연한 물음이다. 하지만 돌아오는 대답은 늘, "이렇게 하면 좋다더라" "저렇게 하면 적당하다더라" 정도였다. 실제로 실무에서 하이퍼파라미터를 선정할 때도, 경험이나 trial-and-error로 나온 결론에 의존해서 선정할 때가 많았다. 하지만 다루는 데이터의 성격도, 사이즈도 다 다른데, 언제까지나 '좋다더라' 식으로 선정된 숫자가 베스트일 리는 없다. 기계번역기의 하이퍼파라미터에서 그 숫자에 제일 의문이 많이..

Paper Tale 2022.04.04

[객체 지향 프로그래밍] SOLID 원칙

* 이 글은 코드잇의 코스를 수강하고 정리한 글입니다. * 나중에라도 제가 참고하기 위해 정리해 두었으며, 모든 내용을 적은 것이 아닌, 필요하다고 생각되는 부분만 추려서 정리한 것임을 미리 밝힙니다. SOLID 원칙을 지키면 유연하고 유지보수하기 쉬운 견고한 코들르 쓸 수 있다고 한다. 프로그램의 크기가 커질 수록 SOLID 원칙을 잘 지키는 것이 중요하다. 하지만 작고 간단한 프로그램을 만드는데 이 원칙을 지키면 오히려 시간 낭비가 될 수도 있다. SOLID 원칙에는 아래 다섯가지가 있다. 1. 단일 책임 원칙 (Single Responsibility Principle) : 모든 클래스는 단 한가지의 책임만을 갖고, 클래스 안에 정의되어 있는 모든 기능은 이 하나의 책임을 수행하는데 집중되어 있어야 ..

[객체 지향 프로그래밍] 다형성(Polymorphism)

* 이 글은 코드잇의 코스를 수강하고 정리한 글입니다. * 나중에라도 제가 참고하기 위해 정리해 두었으며, 모든 내용을 적은 것이 아닌, 필요하다고 생각되는 부분만 추려서 정리한 것임을 미리 밝힙니다. 다형성이란? 다형성의 원래 정의: 여러가지의 형태를 갖는 성질 객체 지향 프로그래밍에서의 다형성: 하나의 변수가 서로 다른 클래스의 인스턴스를 가리킬 수 있는 성질 예시 Circle이라는 클래스와 Rectangle이라는 클래스가 있을 때, 각각의 클래스가 모두 넓이를 계산하는 area라는 메소드를 가지고 있다고 해보자. 한편, 추가된 모든 도형의 넓이 총합을 계산해주는 클래스가 다음과 같이 있다고 할 때, class Canvas: def __init__(self): self.shapes = [] def a..

[객체 지향 프로그래밍] 상속

* 이 글은 코드잇의 코스를 수강하고 정리한 글입니다. * 나중에라도 제가 참고하기 위해 정리해 두었으며, 모든 내용을 적은 것이 아닌, 필요하다고 생각되는 부분만 추려서 정리한 것임을 미리 밝힙니다. 버거집에서 계산원과 배달원이 있을 경우, 위와 같이 클래스 간에 중복되는 코드가 많다..!! 이때 해결점을 제시할 수 있는 게 바로 상속 상속이란? : 두 클래스 사이에 부모-자식 관계를 설정하는 것 : 'A는 B다'일 때, A는 자식클래스, B는 부모클래스 여기서 잠깐!! 상속과 관련된 깨알 메소드 (1) 클래스명.mro(): 해당 인스턴스의 클래스가 어떤 부모 클래스를 가지는지 보여줌 (2) isinstance(생성된인스턴스, 클래스명): 첫번째 파라미터의 인스턴스가 두번째 파라미터 클래스의 인스턴스인..