AI, Deep Learning Basics/Computer Vision

    Build OpenCV with CUDA in virtual environment

    To make OpenCV work with CUDA support in a specific conda environment, you need to build OpenCV from source within that environment. Here's a step-by-step guide: 1. Setup Your Conda Environment: If you haven't created the environment yet: ```bash conda create --name [YOUR ENV NAME] python=3.8 ``` Activate your environment: ```bash conda activate [YOUR ENV NAME] ``` 2. Install Dependencies: Withi..

    Instance segmentation COCO Evaluation metric

    본 글은 Instance segmentation task의 evaluation metric (평가 척도)인 COCO evaluation metric을 설명한 글입니다. COCO dataset은 여기서 볼 수 있습니다. On the instance segmentation task, its evaluation metric solves this problem by using the intersection over union (IoU). IoU means measuring the similarity between finite sets, defined as the size of the intersection divided by the size of the union of the sets. Based on the ..

    [기초] 이미지 classification 기본 모델: VGG, GoogLeNet, ResNet

    이 글은 필자가 "밑바닥부터 시작하는 딥러닝 1"을 보고 헷갈리는 부분이나 다시 보면 좋을만한 부분들을 위주로 정리한 글입니다. 헷갈렸던 부분 CNN: (Conv - Relu) - Pooling 거침 Pooling layer는 크기만 줄어들뿐 깊게 만들기 위해서는 Conv layer가 필수적이다. 1x1 Conv vs. 3x3 Conv (1x1 Conv): 주로 채널 개수를 줄이기 위해 사용 (3x3 Conv, stride =1) 1. VGG 합성곱 계층과 풀링 계층으로 구성되는 기본적인 CNN Receptive field를 통한 (5x5) Conv보다 2개의 (3x3) Conv가 더 효율적임을 이야기 (Max pooling) - N개의 3x3 Convolution 을 거친후 FC Max pooling으..

    [Generative Model] Variational AutoEncoder 3. Variational Inference

    이 글은 VAE 모델을 학습하는 데 있어 이미지를 생성하는 Decoder 쪽에서 일어나는 Variational Inference 부분을 수식을 통해 자세히 이해하고자 만든 글입니다. 참고자료는 블로그, 블로그2, 블로그3 입니다. -220319. z에 관한 설명, 수식 전체적으로 latex 처리 🔦 시작하기 전 단어 정리 Variational Inference/Varational Bayesain Method: 변분 추론 KL-Divergence: 두 확률분포의 차이를 나타내는 지표 ELBO(Evidence LowerBOund): Loss function을 추론하며 나타나는, 함수가 학습되면서 학습할 방향을 지정한다. 🧨 VAE Concept Recap Probabilistic Encoder $p(z|x)..

    [Generative Model] Variational AutoEncoder 2. Application: Conditional VAE, Convolutional CVAE 코드 구현

    이 글은 필자가 주재걸 교수님의 2018-1 Image Generation and Translation 강의를 듣고 추가 블로그 참고1, 참고2를 읽으면서 정리차 작성한 글입니다. 강의를 듣게 된 경위: 이용해야 할 개념에서 Image와 같이 2D 개념에 적용한 예시가 없어서 이를 2D에 적용하면서 나타낼 수 있는 문제점들이나 인사이트들을 다시 확용하고자 image generation task에 연결하고자 듣게 되었다. 🎈 Conditional Variational AutoEncoder (CVAE) VAE + Condition: VAE 구조에서 Label 정보를 추가해서 더 높은 정확도를 제공하는 VAE를 제공한다. Model structure VAE구조에 시작부분, Representation 부분에 정..

    [Generative Model] Variational AutoEncoder 1. Basic: AE, DAE, VAE

    이 글은 필자가 주재걸 교수님의 2018-1 Image Generation and Translation 강의를 듣고 추가 블로그 참고1, 참고2, 참고3, 참고4를 읽으면서 정리차 작성한 글입니다. 강의를 듣게 된 경위: 이용해야 할 개념에서 Image와 같이 2D 개념에 적용한 예시가 없어서 이를 2D에 적용하면서 나타낼 수 있는 문제점들이나 인사이트들을 다시 확용하고자 image generation task에 연결하고자 듣게 되었다. - 220130. VAE loss function 자세히 내용 보충 - 220319. Generative model ) Latent variable model 내용 보충 Generative model? : Training data의 distribution을 학습하여 새로..

    [Computer Vision] Image, Video 분야 subtask 및 데이터 종류 정리

    Task 종류와 관련 dataset (핫한 순위별로) Video Object Tracking Dataset OTB(Object Tracking Benchmark) Video Action Classification / Action Recogntion Dataset UCF101: 13,320 video clip and its categories(101 categories, divided into 5 types: 1)Human-Object Interaction 2) Body-Motion Only 3) Human-Human Interaction 4) Playing Musical Instruments 5) Sports) Kinetics: 500,000 video clips(around 10 second, high..

    [Basic] 3x3 Conv, 1x1 Conv 하는 이유(FCN vs. FC Layer vs. FPN)

    3x3 Convolutional Layer: 3x3 공간이 지닌 특징을 하나의 값으로 추출하기 with stride = 1 (각 픽셀별 위치정보가 갈수록 줄어든다. ex. FC layer) 1x1 Convolution Layer: 1x1 공간이 지닌 특징을 하나의 값으로 추출하기 with stride = 0 = 각 픽셀별 위치정보를 해치지 않은 채 조합에 따른 정보 분석을 하는 것 = 각 픽셀별 분석 ex.Fully Convolutional Network Fully Connected Layer 일반적인 Convolution Layer에 쓰이는 현상 Feature map을 flatten -(FC Layer)-> 전체 이미지의 특징을 출력하기 = 각 픽셀별 이미지의 위치 정보가 사라진다. Fully Conv..

    [Instance segmentation] Mask R-CNN/Detectron2 모델 파일 분석

    mask-rcnn .circleci configuration of the environment to run config.yml: environments to run the jobs in .github arrangement on the github environment ISSUE_TEMPLATE workflows CODE_OF_CONDUCT.md CONTRIBUTING.md ISSUE_TEMPLATE.md pull_request_template.md build options that is built on my macosx environment lib.macosx-10.9-x86_64-3.7 configs structure of the whole model(-common-models-mask_rcnn_fpn..

    [톺아보기] Pytorch를 이용한 Image Classifier 코드, Gradient Descent

    본 글은 Gradient Descent의 Pytorch 코드에 대한 필자의 이해를 위해 번역된 글로, 원글은 여기서 보실 수 있습니다. Pytorch 를 통해 이미지 분류기를 만들어보도록 하겠습니다. 흐름은 다음과 같습니다. 데이터셋 준비하기 - torchvision을 통해 CIFAR10 데이터셋 준비(Loading train/test dataset, normalization 포함) CNN 네트워크 준비하기 Loss function 정의하기 Train dataset을 CNN 네트워크 학습하기 CNN 네트워크로 test dataset 예측하기 본 글은 이미지가 학습되는 전체 구조 중심으로 설명하기 보다는 gradient descent가 어떤 흐름으로 이루어져있는지 자세히 살펴보고자 만들어졌습니다. 그럼 시..

    [논문리뷰] Everybody Dance Now

    Everybody Dance Now #MotionTransfer #videotovideotranslation #GAN Dataset: a variety of videos, enabling trained amateurs to spin and twirl like ballerinas, perform martial arts kicks, or dance as vibrantly as pop stars Transfer motion between two video subjects in a frame-by-frame manner > mapping between images of two inidividuals > discover an image-to-image translation between source and tar..