분류 전체보기 65

LANISTR 코드 리뷰 (1)

LANISTR GitHub GitHub - google-research/lanistrContribute to google-research/lanistr development by creating an account on GitHub.github.com 저번 포스트에 이어 LANISTR에 대해 공부한 내용을 공유해보고자 합니다~!!논문 리뷰를 통해 LANISTR에 대해 공부하고 GitHub에 공유된 코드를 리뷰하면서 학습하고자 합니다.우선, LANISTR 설치를 해야합니다. Jupyter Lab이 깔려있다면, 새로운 노트북에서 설치 및 학습을 진행하면 됩니다.1. 환경 설정 및 LANISTR 설치1.1 Conda 환경 생성 및 활성화conda create -n lanistr python=3.8 -ycond..

LANISTR 논문 리뷰

LANISTR 논문 LANISTR는 언어, 이미지 및 정형 데이터를 동시에 학습할 수 있는 새로운 MultiModal 학습 프레임워크이다.Abstact언어, 이미지, 정형 데이터로부터 학습하기 위한 attention 매커니즘 기반 프레임워크인 LANISTR 제안.LANISTR의 주요 특징:마스킹 기반 훈련 :단일 모달 및 다중 모달 레벨 : 개별 데이터 유형(단일 모달) 뿐만 아니라 다양한 데이터 유형 (다중 모달)에서도 마스킹 기반 훈련을 적용유사성 기반 다중 모달 마스킹 손실 함수 : 일부 데이터 유형이 없는 대규모 다중 모달 데이터로부터 교차 모달 관계 학습 가능실제 데이터 셋에서의 성능 :MIMIC-IV(의료 데이터) & Amazon Product Review (소매 데이터)MIMIC-IV는 AU..

DDPM (Denoising Diffusion Probabilistic Models)

What is Diffusion Model?Diffusion Model은 Normalizing Flows, GANS, 또는 VAEs와 같은 다른 생성 모델(이들은 모두 간단한 분포에서 노이즈를 데이터 샘플로 변환한다) 에 비해 그렇게 복잡하지 않다.Diffusion Model 또한 신경망이 순수한 노이즈에서 시작하여 점진적으로 데이터를 Denoising 하는 방법을 학습한다.이미지를 예로 들어 자세히 설명하면, Setting은 두 가지 과정으로 구성된다.고정된 forward diffusion process q : 이 과정은 우리가 선택한 방식으로 이미지를 점진적으로 가우시안 노이즈를 추가하여 순수 노이즈로 변환한다.학습된 역방향 denoising diffusion process 𝑝𝜃 : 이 과정에서는..

How to create pipeline?

https://yooni-archive.tistory.com/64에 마지막 단계인 Step 6. Generatre Images 에 대한 내용을 이어서 적어보았다.Step 6. Generate ImagesOption 1 : Creating a pipeline :훈련된 모델을 사용하여 이미지를 생성하는 파이프라인을 설정하고, 그 파이프라인을 통해 이미지를 생성하는 작업을 수행한다.from diffusers import DDPMPipeline# 모델과 scheduler를 사용자가 설정할 수 있음 image_pipe = DDPMPipeline(unet=model, scheduler=noise_scheduler)pipeline_output = image_pipe()pipeline_output.images[0]이 ..

First Week : Introduction of Diffusion Course

What are Diffusion Models?Diffusion Model 확산 모델은 상대적으로 최근에 '생성 모델'로 알려진 알고리즘 그룹에 추가되었다. "생성 모델"의 목표 : 여러 훈련 예제가 주어졌을 때 이미지나 오디오와 같은 데이터를 생성하는 방법을 배우는 것이다. '생성 모델' 의 목표 = 여러 훈련 예제가 주어졌을 때 이미지나 오디오와 같은 데이터를 생성하는 방법을 배우는 것 Diffusion Model의 Main Idea: Diffusion process의 반복적인(iterative) 특성생성은 랜덤 노이즈에 시작되지만, 출력 이미지가 나타나기 까지 여러 단계를 걸쳐 점진적으로 개선된다.각 단계에서, 모델은 우리가 현재 입력에서 완전히 denoise된 버전으로 어떻게 이동하는지를 추정 모..

Chapter 4.5 GBM (Gradient Boosting Machine)

GBM의 개요 및 실습부스팅 알고리즘: 여러 개의 약한 학습기 weak learner 를 순차적으로 학습 - 예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식 대표적인 구현 : AdaBoost(Adaptive boosting) , 그래디언트 부스트 AdaBoost 에이다 부스트: 오류 데이터에 가중치를 부여하면서 부스팅을 수행하는 알고리즘  AdaBoost 에이다 부스트  맨 왼쪽 그림과 같이 + , - 로 이루어진 피처 데이터가 존재 Step 1 : 첫번째 약한 학습기가 분류 기준 1로 +, -를 분류 .               동그라미로 표시된 + 데이터는 + 데이터가 잘못 분류된 오류 데이터 Step 2 : 이 오류 데이터에 대해서 가중치 값 부여      ..

Chapter 4.4 랜덤 포레스트

랜덤 포레스트의 개요 및 실습 배깅 Bagging: 같은 알고리즘으로 여러 개의 분류기를 만들어서 보팅으로 최종 결정하는 알고리즘- 배깅의 대표적인 알고리즘 : 랜덤 포레스트  랜덤 포레스트 : 여러 개의 결정 트리 분류기가 전체 데이터에서 배깅 방식으로 각자의 데이터를 샘플링해 개별적으로 학습을 수행한 뒤 최종적으로 모든 분류기가 보팅을 통해 예측 결정하는 것 - 개별적인 분류기의 기반 알고리즘 : 결정트리 - 개별 트리가 학습하는 데이터 세트는 전체 데이터에서 일부가 중첩되게 샘플링된 데이터 세트 - 랜덤 포레스트의 서브세트 Subset 데이터는 이러한 부트 스트래핑으로 데이터가 만들어진다.부트 스트래핑 (bootstrapping) 분할 방식 : 여러 개의 데이터 세트를 중첩되게 분리하는 것 (배깅 ..

Chapter 4.3 앙상블 학습 Ensemble Learning

앙상블 학습 개요: 앙상블 학습을 통한 분류는 여러 개의 분류기 (Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법쉽게 말해서, 집단 지성을 이용해서 학습하는 것이라고 생각할 수 있다.  앙상블 학습의 유형- 보팅 (Voting), 배깅(Bagging), 부스팅(Boosting)의 세가지로 나뉜다.  보팅 vs. 배깅: 보팅과 배깅은 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식 보팅 : 일반적으로 서로 다른 알고리즘을 가진 분류기를 결합하는 것- 대표적인 예시 : 랜던 포레스트 알고리즘- 선형회귀, K 최근접 이웃, 서포트 백터 머신이라는 3개의 ML 알고리즘이 같은 데이터 세트에 대해 학습하고 예측한 결과를 가지고 최종 예측 결과를 선정하..

Chapter 3.5 ROC 곡선과 AUC

ROC 곡선 & AUC 스코어- 이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표 ROC 곡선 (Receiver Operation Characteristic Curve)- 수신자 판단 곡선이라 불림- FPR이 변할 때 TPR이 어떻게 변하는지를 나타내는 곡선- FPR : X축 , TPR : Y축TPR (True Positive Rate) - 재현율 / 민감도 - TPR = TP / (FN + TP)- 실젯값 Positive가 정확히 예측돼야 하는 수준을 나타냄 EX) 질병이 있는 사람은 질병이 있는 것으로 양성 판정 TNR (True Negative Rate) - 특이성- TNR = TN / (FP + TN)- 실젯값 Negative가 정확히 예측돼야 하는 수준을 나타냄EX) 질병이 없는 건강한 사..

카테고리 없음 2024.05.16

Chapter 3.4 F1 스코어

F1 스코어 - 정밀도와 재현율을 결합한 지표 - 정밀도와 재현율이 어느 한쪽으로 치우치지 않는 수치를 나타낼 때 상대적으로 높은 값을 가진다.  EX1) A 예측 모델 : 정밀도가 0.9 , 재현율이 0.1 --> F1 Score = 0.18B 예측 모델 : 정밀도 0.5 , 재현율 0.5 --> F1 Score = 0.5Con : B 모델 > A 모델  f1_Score() 함수  - 앞 절의 예제인 학습/예측한 LogisticRegression 기반 타이타닉 생존자 모델의 F1 스코어 이용  def get_clf_eval(y_test, pred): confusion = confusion_matrix(y_test, pred) accuarcy=accuracy_score(y_test, pred)..