Deep learning/Computer Vision 7

[컴퓨터비전] OpenCV - Vision Language Model (VLM) Bootcamp

아래 글은 OpenCV 사에서 제공하는 Vision Language Model Bootcamp 에 대한 교육 내용을 정리하였습니다. 다만 저작권은 OpenCV university에 있으므로 교육 자료 및 코드는 공유가 불가능합니다. 어떤 내용을 교육하는지 가볍게 살펴봐주세요! :)Vision Language Model Bootcamp: Link 코스는 2시간으로 CLIP과 Qwen2.5-VL 에 대한 이론 및 실습 (colab)으로 구성되었다.CLIP에 대해서는 이전에 다룬 적이 있기에 여기서는 생략한다. (CLIP 포스팅: Link)그럼 Qwen2.5VL에 대해 이야기해보자.1. Qwen2.5-VLQwen2.5-VL [1] 은 Qwen vision language 계열 모델로, vision encode..

[컴퓨터비전] 기초부터 시작하는 CLIP (Pytorch 구현)

📌 이 글에 대하여 이 게시글은 Kaggle의 Moein Shariatnia 님이 작성한 원문 글을 한국어로 번역한 것입니다.원문은 Apache License 2.0 하에 공개되었으며, 이 블로그 역시 해당 라이선스를 따릅니다.원문 저자:Moein Shariatnia원문 위치: Kaggle Notebook라이선스: Apache License 2.0 전문 보기본 번역은 비상업적/교육적 목적이며, 원문 저자의 저작권과 라이선스를 존중합니다.코드: https://github.com/johyeongseob/from-scratch-ai데이터셋: https://www.kaggle.com/datasets/hsankesara/flickr-image-dataset라이브러리 설치conda create -n clip-en..

[컴퓨터비전] 기초부터 시작하는 ViT (Pytorch 구현)

📌 이 글에 대하여이 게시글은 Kaggle의 Sushant Kumar 님이 작성한 원문 글을 한국어로 번역한 것입니다.원문은 Apache License 2.0 하에 공개되었으며, 이 블로그 역시 해당 라이선스를 따릅니다.원문 저자: Sushant Kumar 원문 위치: Kaggle Notebook 라이선스: Apache License 2.0 전문 보기본 번역은 비상업적/교육적 목적이며, 원문 저자의 저작권과 라이선스를 존중합니다.코드: https://github.com/johyeongseob/from-scratch-aidependency conflict 확인Windows11, Python 3.8.18, torch version: 2.4.1+cu121, CUDA: 12.1, GPU: NVIDIA GeFo..

[컴퓨터비전] 데이터 증강 종류 및 코드 (Pytorch, Albumentations, Imgaug)

데이터 증강 (Data Augmentation) 데이터 증강은 데이터 수를 늘려, Overfitting을 방지하고, 모델이 Generalization을 갖도록 한다. 이미지에서 데이터 증강에는 다양한 종류가 있다. 아래 그림은 MNIST(28px*28px)를 이용한 이미지 증강 예시이다. 하나씩 살펴보자. 코드는 Pytorch 기준이다. Pytorch의 torchvision 제공import torchvision.transforms as transforms 1. 뒤집기(Flip)horizon = transforms.RandomHorizontalFlip(p=1)vertical = transforms.RandomVerticalFlip(p=1)  P는 Probability로 이미지 증강을 적용할 확률값이다. 흔..

[컴퓨터비전] Cityscapes annotation을 COCO (.json)로 변경하는 방법

Cityscapes 2 COCO참고 포스팅: https://tillbeemelmanns.github.io/2020/10/10/convert-cityscapes-to-coco-dataset-format.html How to convert Cityscapes dataset to CoCo dataset format - Till BeemelmannsCityscapes is a great dataset for semantic image segmentation which is widely used in academia in the context of automated driving. This dataset provides pixel-precise class annotations on the full image fr..

[컴퓨터비전] KITTI dataset label (.txt) 파일을 PASCAL VOC label (.xml)로 변경하는 방법

KITTI 2 PASCAL참고 깃허브: https://github.com/umautobots/vod-converter?tab=readme-ov-file GitHub - umautobots/vod-converter: Convert between visual object detection datasetsConvert between visual object detection datasets. Contribute to umautobots/vod-converter development by creating an account on GitHub.github.com 위 깃허브에서 코드 다운받은 후, 폴더(vod-converter-master)에 아래와 같이 필요한 내용 추가하기.ideadatasetsmydata-ki..

[컴퓨터비전] 윈도우 환경에서 detectron2 설치하는 방법

공지: 게시글 마지막에 있는 ‘참고 사이트3’ 을 참고해서 detectron2를 설치하였습니다. Install Detectron2Meta에서 나온 ‘detectron2’를 윈도우11 및 CUDA 11 환경에서 설치하는 과정을 설명합니다.더보기운영체제: Window 11 Pro GPU: NVIDIA GeForce RTX 3080 Ti (sm_86 CUDA 지원, 3080 Ti에 호환되는 CUDA Toolkit은 11.2 이상) CUDA: 11.6 anaconda: 2022.10 windows-x86_64 release python: 3.9.13 Pytorch: 1.12.0 Microsoft Visual Studio: Community 2022 공식 홈페이지 detectron2 요구사항: https://de..