본문 바로가기

딥러닝
[LLM] 2. 허깅페이스 트랜스포머 모델 학습하기 허깅페이스란?  2017년 트랜스포머 아키텍처가 세상에 공개된 이후, BERT와 GPT등 트랜스포머를 기반에 두면서도 구현 방식이 상이한 자연어 처리 모델들이 쏟아져 나왔다. 각 모델들의 활용법 또한 다르기 때문에, 사용자가 각 모델들의 활용법을 숙지하는 데 시간이 제법 소요되는 상황이 발생한 것. 이에 따라 각 모델의 개발/사용이 지연되기도 했다. 이러한 배경 속에서 Hugging face팀은 트랜스포머 라이브러리를 개발했는데, 쉬운 인터페이스로 트랜스포머 기반의 모델을 활용할 수 있도록 하였다. 이를 통해 우리는 트랜스포머 기반 모델을 손쉽게 사용할 수 있고, 심지어는 나만의 데이터로 학습시키는 것 또한 가능하다. (트랜스포머 기반 뿐만 아니라, 시중에 공개되어 있는 매우 다양한 종류의 딥러닝 모델을..
13. RNN 코드실습 이 포스트는 '텐초의 파이토치 딥러닝 특'을 참고하여 만들어졌음! RNN 개념도 물론 중요하지만 요것들을 실제로 적용하는 과정에서 무수한 궁금증이 생기기 때문에 한 번 코드실습을 해보는 시간을 가져보겠다. 결과가 가시적인 CNN과는 달리 RNN은 개념도 그렇고 코드 칠 때도 뭐가 뭔지 모르는 부분이 많았다. 텐초의 파이토치 딥러닝 특강의 '6장 넷플릭스 주가 예측하기 RNN으로 첫 시계열 학습'을 참고하여 RNN 코드 실습을 진행하였다. ㄱㄱ씽~ 1. 데이터 가져오기 import pandas as pd data = pd.read_csv("/content/train.csv") data.head()​ 실습에 사용할 데이터는 https://www.kaggle.com/c/netflix-stock-predicti..
12. RNN (Recurrent Neural Network) 이론 이 포스트는 Do it 딥러닝 교과서 (윤성진 저)를 참고하여 만들어졌음! RNN 시간 혹 공간적 순서 관계가 있는 데이터를 순차 데이터(sequence data)라고 부른다. 순차 데이터는 시공간의 순서 관계에 의해 문맥 혹은 context를 갖는다. 예를 들어 '나는', '밥이', '먹고싶다' 라는 텍스트 데이터는 '나는 밥이 먹고싶다'의 순서로 진행되는 한 문장이다. 하지만 각 세 데이터를 순방향 신경망에 차례대로 입력하는 경우 순방향 신경망은 세 단어 간 문맥을 파악하지 못하여 한 문장을 완성하지 못한다. 이러한 한계점을 돌파하여 데이터의 순차 구조를 인식하고 기억하도록 개발된 것이 바로 순환 신경망 (RNN: recurrent neural network)이다. RNN structure 기존 신경..