'딥러닝' 카테고리의 글 목록

본문 바로가기

딥러닝

[LLM] 4. 효율적인 GPU 사용, 분산 학습, LoRA, QLoRA

단일 GPU 효율적으로 사용하기 GPU 자원은 한정되어 있기 때문에, 언제든 GPU 메모리를 효율적으로 사용하는 방법을 탐구해야 한다. 이번에는 GPU 메모리 사용 효율화를 위한 방법인 그레이디언트 누적 / 그레이디언트 체크포인팅에 대하여 알아본다. 그레이디언트 누적 (Gradient Accumulation) - 큰 batch size를 사용할 수 있도록 보조하는 방법론이다. batch size를 크게 잡을수록 모델 학습이 더 안정적으로 이루어지지만, 이전 글에서 확인했듯이 batch size를 늘릴수록 GPU 자원을 더 많이 소모한다. Gradient Accumulation은 작은 배치를 여러 번 처리한 후, 각 배치에서 계산된 Gradient를 누적하여 하나의 큰 배치처럼 처리한다.그레이디언트 체크포..

[LLM] 3. 좋은 데이터 셋, GPU

지도 미세 조정 LLM이 사용자의 목적에 맞는 적절한 응답을 내놓기 위해서는 지도 미세조정(supervised fine-tuning)이 필요하다. 비록 미세조정 되지 않은 pre-trained LLM 모델도 엄청나게 많은 데이터(Llama-2의 경우 약 10TB의 txt)를 이용하여 사전학습 된 것이기에 대부분의 문제에서 강력한 성능을 보인다. 하지만 LLM이 사용되길 원하는 분야가 아주 마이너하거나 데이터 수집이 어려운 분야라면, 직접 미세조정을 통해 더 우수한 모델을 구축할 수 있을 것이다. 지도 미세조정에 사용하는 데이터셋을 지시 데이터셋(Instruction dataset)이라 부른다. 2023년 공개된 Llama의 추가학습 버전인 Alpaca를 학습하는 데 사용된 알파카 데이터셋을 살펴보도..

[LLM] 2. 허깅페이스 트랜스포머 모델 학습하기

허깅페이스란? 2017년 트랜스포머 아키텍처가 세상에 공개된 이후, BERT와 GPT등 트랜스포머를 기반에 두면서도 구현 방식이 상이한 자연어 처리 모델들이 쏟아져 나왔다. 각 모델들의 활용법 또한 다르기 때문에, 사용자가 각 모델들의 활용법을 숙지하는 데 시간이 제법 소요되는 상황이 발생한 것. 이에 따라 각 모델의 개발/사용이 지연되기도 했다. 이러한 배경 속에서 Hugging face팀은 트랜스포머 라이브러리를 개발했는데, 쉬운 인터페이스로 트랜스포머 기반의 모델을 활용할 수 있도록 하였다. 이를 통해 우리는 트랜스포머 기반 모델을 손쉽게 사용할 수 있고, 심지어는 나만의 데이터로 학습시키는 것 또한 가능하다. (트랜스포머 기반 뿐만 아니라, 시중에 공개되어 있는 매우 다양한 종류의 딥러닝 모델을..

[LLM] 1. 임베딩, 어텐션, 트랜스포머 모델들

컴퓨터는 텍스트를 그대로 계산에 사용할 수 없다.그렇다면 어떻게 해야하는가 .. 텍스트를 적절한 단위로 자르고, 숫자로 변환하는 토큰화(tokenization) 과정이 필요하다. input_text = "나는 최근 파리 여행을 다녀왔다"input_text_list = input_text.split()print("input_text_list: " , input_text_list)str2idx = {word:idx for idx, word in enumerate(input_text_list)}idx2str = {idx:word for idx, word in enumerate(input_text_list)}print("str2idx: ", str2idx)print("idx2str: ", idx2str)inp..

14. LSTM (Long Short Term Memory) 개념 + GRU

이 포스트는 Do it 딥러닝 교과서 (윤성진 저)를 참고하여 만들어졌음! LSTM (Long Short Term Memory) LSTM에 들어가기 전에 기존 RNN의 문제점에 대해 살펴본다. 이전까지 배운 RNN은 Vanilla RNN으로, 순환신경망의 기초 동작원리를 설명한다고 볼 수 있다. Vanilla RNN은 다음과 같은 문제점을 갖는다. 1. 장기의존성 (long-term dependency) : 시간 상 멀리 떨어진 입력의 영향이 약해진다. 즉 어떤 입력 데이터가 실제로 멀리 떨어진 입력에 대해 장기 의존성이 있음에도 불구하고 Vanilla RNN으로는 이를 파악할 수 없다. 따라서 순차열이 길어질수록 데이터의 정보가 서서히 사라진다. → 모델의 기억력이 짧다! 2. Gradient Vani..

13. RNN 코드실습

이 포스트는 '텐초의 파이토치 딥러닝 특'을 참고하여 만들어졌음! RNN 개념도 물론 중요하지만 요것들을 실제로 적용하는 과정에서 무수한 궁금증이 생기기 때문에 한 번 코드실습을 해보는 시간을 가져보겠다. 결과가 가시적인 CNN과는 달리 RNN은 개념도 그렇고 코드 칠 때도 뭐가 뭔지 모르는 부분이 많았다. 텐초의 파이토치 딥러닝 특강의 '6장 넷플릭스 주가 예측하기 RNN으로 첫 시계열 학습'을 참고하여 RNN 코드 실습을 진행하였다. ㄱㄱ씽~ 1. 데이터 가져오기 import pandas as pd data = pd.read_csv("/content/train.csv") data.head() 실습에 사용할 데이터는 https://www.kaggle.com/c/netflix-stock-predicti..

12. RNN (Recurrent Neural Network) 이론

이 포스트는 Do it 딥러닝 교과서 (윤성진 저)를 참고하여 만들어졌음! RNN 시간 혹 공간적 순서 관계가 있는 데이터를 순차 데이터(sequence data)라고 부른다. 순차 데이터는 시공간의 순서 관계에 의해 문맥 혹은 context를 갖는다. 예를 들어 '나는', '밥이', '먹고싶다' 라는 텍스트 데이터는 '나는 밥이 먹고싶다'의 순서로 진행되는 한 문장이다. 하지만 각 세 데이터를 순방향 신경망에 차례대로 입력하는 경우 순방향 신경망은 세 단어 간 문맥을 파악하지 못하여 한 문장을 완성하지 못한다. 이러한 한계점을 돌파하여 데이터의 순차 구조를 인식하고 기억하도록 개발된 것이 바로 순환 신경망 (RNN: recurrent neural network)이다. RNN structure 기존 신경..

VGG net 논문리뷰 + 실습

VGG net 이 포스팅에서는 CNN을 공부해봤다면 반드시 한 번쯤은 써봤을 법한 모델 VGG 논문을 리뷰해보도록 한다. 논문 발표시점은 2014년으로 ImageNet의 이미지 분류대회 ILSVRC가 활발히 진행되던 시점이라 해당 대회의 이야기가 논문 스토리텔링의 중추가 되었다. (ILSVRC은 2010년 부터 2017년까지 매년 개최되었다.) Introduction은 가볍게 건너뛰고 해당 논문에서 제시하는 Convnet (convolutional network)의 구조와 몇가지 설정사항을 확인해보도록 한다. Input image size는 224x224x3 (RGB channel)으로 고정한다. (very small receptive field를 가지는) 3x3 filter를 사용한다. (3x3 fil..

목록 더보기

티스토리툴바