이 글은 논문 Finding the Optimal Vocabulary Size for Neural Machine Translation을 읽고 리뷰한 글입니다. 0. 들어가며 인공지능을 만지다 보면 하이퍼파라미터에 대한 의문이 들 때가 있다. 도대체 이건 왜 이 숫자여야 하는가, 라는 원론적이고 당연한 물음이다. 하지만 돌아오는 대답은 늘, "이렇게 하면 좋다더라" "저렇게 하면 적당하다더라" 정도였다. 실제로 실무에서 하이퍼파라미터를 선정할 때도, 경험이나 trial-and-error로 나온 결론에 의존해서 선정할 때가 많았다. 하지만 다루는 데이터의 성격도, 사이즈도 다 다른데, 언제까지나 '좋다더라' 식으로 선정된 숫자가 베스트일 리는 없다. 기계번역기의 하이퍼파라미터에서 그 숫자에 제일 의문이 많이..