본문 바로가기

SWE/AI

(14)
Encoder-Decoder Architecture 사용 이유 Attention에 이어 Transformer를 이해하기 위해서는 Encoder-Decoder Architecture를 이해해야 한다.아키텍처 측면에서 특별할 건 없지만 왜 이 구조를 선택했는지는 알아둘 필요가 있다.어떤 기술이 있을 때 그 기술이 어디에 필요한 지를 파악하는 것이 중요하다구!1. Encoder-Decoder Architecture Encoder-decoder architecture는 sequential data를 처리하는데 효과적인 구조로 machine translation 등에 사용된다.입력 시퀀스를 인코더에서 추상화된 표현으로 변환하고, 그 표현을 디코더가 사용하여 원하는 출력 시퀀스를 생성한다. 1.1. 구성이름 그대로 encoder와 decoder로 구성된다.1.1.1. Enco..
Attention is all you need라니까 Tesla 주가가 이렇게 많이 올랐는데 Transformer를 모른다? Tesla 자율주행을 설명할 때 FSD만 겨우 설명하고 있다면 여기 attention 해보자. RNN 구조에서 마지막 State의 결과만 사용하기에는 정보손실이 크기 때문에 LSTM 구조를 이용해도 여전히 Long Sequence를 학습하기 어렵다는 문제가 있다. 그래서 등장한 Transformer!! Attention을 이용해 전체 입력 문장에서 참고해야 하는 중요한 State를 계속해서 참조하고, Positional Encoding을 이용해 순차적 데이터를 반영하는 아이디어인데.. Transformer는 bottom-up으로 이해하는 것이 쉽다. (논문을 읽는 게 가장 빠름: Attention is all you need) "Tr..
RNN을 쪼개보자 기술이 쏟아질 때는 비교 해보고 그려보는 것이 머리에 오래 남는다.연속적인 데이터를 다루기 위한 뉴럴 네트워크 구조인 RNN은 구조적 특징이나 입출력 데이터 처리 방식에 따라 구분할 수 있다.이번에도 두괄식으로 표로 먼저 보고 하나씩 정리해보자. 구분 기준방식설명사용 예장점단점구조적 특징Vanilla RNN가장 기본적인 RNN 형태로, 단일 은닉 상태를 사용간단한 시퀀스 예측구조 단순, 계산 빠름장기 의존성 문제, 기울기 소실LSTM셀 상태와 게이트 구조를 추가하여 장기 의존성 문제 해결기계 번역, 음성 인식장기 의존성 유지, 안정적 학습구조 복잡, 계산 비용 높음GRULSTM보다 단순한 게이트 구조로 계산량 감소문장 분류, 음성 처리계산 효율적, 장기 의존성 유지복잡한 패턴 학습 제한Multi-laye..
RNN을 향한 꼬꼬무 RNN을 알아야 transformer 이해가 쉽기에 먼저 정리해본다.그리고 그 전에 hidden state를 알아야.. 아! 그 전엔 sequential data를 알아야… 결국 다 알면 좋은.. 지친.. 파이팅!!! 1. Sequential DataSequential Data는 한마디로  순서 정보가 데이터다.음성, 문장, 비디오 등 시간 또는 시간이 아니더라도 순서 정보가 중요한 데이터들이 sequential data에 해당하며 해당 데이터 기반으로 음성 인식, 음악 생성 등 다양한 문제를 해결한다.1.1. Time Series Data순서의 기준이 시간인 sequential data다.특정 시간 간격으로 측정 된 데이터로, 해당 데이터는 시간 축에 따라 순차적으로 배열되모 각 데이터 포인트는 특정 ..
Non-linear activation function ReLU, Sigmoid, Softmax, tanh모두 신경망에서 자주 사용하는 활성화 함수다.각 함수마다 독특한 특성과 장단점이 있는데.. 일단 공통점은 비선형 활성 함수(non-linear activation function)라는 것!🤷🏻‍♀️왜 하필 비.선.형. 활성화 함수야? Linear는 안돼?Linear Activation Function도 존재한다. 회귀 문제 등에서 특정 상황에 유용하지만, 아래 3가지 이유로 비선형 관계를 학습할 수 없어 신경망의 hidden layer에서는 거의 사용되지 않는다.1. 선형성입력을 그대로 출력으로 반환함. 비선형성을 도입하지 않기 때문에, 비선형 패턴을 학습하지 못하는 한계가 있다.2. 출력 범위 제한 없음다른 활성화 함수와 달리 출력이 제한되지 않아,..
내가 가장 좋아하는 Layer는 딥러닝에서도 블록체인에서도 요즘 Layer라는 말이 많이 등장한다.FC Layer, Hidden Layer, Layer-1, Layer-2 ...그치만 뭐니뭐니해도 내가 가장 좋아하는 Layer는 크레이프 케이크다. 오늘은 딥러닝의 가장 기본이 되는 구성 성분인 FC layer를 시작으로 layer들을 살펴보자. 1. Fully Connected Layer지난 글에서 간단히 정리했고, 오늘은 동작 방식이다. FC Layer?Deep Neural Network의 기본이 되는 구성 성분이고,하나의 layer의 모든 neuron들이 다른 layer의 neuron들과 모두 fully connected되어 있는 layer 1.1. 사용그래 근데 이걸 왜 쓰느냐..FC Layer는 layer의 입력 내 존재하는 정..
FCL FCNN FCN FPN 누가 진또배기냐 입사하고 제일 열받는 것 중 하나가 줄임말이다.별다줄~AI 필드에서도 다를 게 없다. 걍다줄이라고 보면 된다.. 오늘은 F 패밀리를 다뤄본다.  일단 두괄식으로 간다.분류구조활용 분야특징FCLDense Layer이미지 분류, 회귀모든 뉴런이 이전 layer의 뉴런과 연결, 주로 최종 분류에 사용FCNNFully Connected Layer로만 구성분류, 회귀Convolution 없이 Dense Layer로 구성된 신경망, 주로 1차원 데이터에 사용FCNConvolutional Layer와 up-samping으로만 구성Semantic Segmentation픽셀 단위 분류, Convolutional 구조로 공간 정보 보존FPNBottom-up 및 Top-down 경로Object Detection, Insta..
Network Model 로드맵 AI 개발한다더니 데이터 처리만하느라 지치셨나요?이제 AI 개발의 꽃, Network model들을 비교해보도록 합시다!!🥳(추후 각 모델 별 추가 정리 예정)“AI 개발자에요”하면 모든 설명이 끝나는 것처럼 보이지만 사실 그렇지 않다.모델 자체를 연구하는 Researcher연구된 모델을 활용한 AI application을 개발하는 Applied EngineerAI 모델을 유저에게 전달할 수 있도록 학습 및 서빙을 관리하는 Ops Engineer이렇게 나눠볼 수 있는데 가능하다면 모든 분야를 조금씩이라도 이해하고 있는 것이 각각의 분야에서 개발하는데 도움이 된다.(고생하며 정리한 건데 모두에게 도움이 되길..🥹🙏🏻) 1. Network Model네트워크 모델은 다양하지만 그 본질은 동일하기에 to..