머신러닝 과정

최신 CS 기술/개념

2021. 4. 30. 13:50

Correlation Analysis

MIC(Maximal Information Coefficient)
최대정보 상관계수 
연속확률변수의 표본 데이터에서 상호정보량을 측정하려면 우선 확률분포함수를 알아야한다. 확률분포함수는 보통 히스토그램을 사용하여 유한개의 구간(bin)으로 나누어 추정하게되는데 이 때 구간의 갯수나 경계 위치에 따라 추정오차가 커질 수 있다. 따라서 구간을 나누는 방법을 다양하게 시도한 다음에 그 결과로 구한 다양한 상호정보량 중에서 가장 큰 값을 선택하여 정규화한 것을 **최대정보 상관계수(maximal information coefficient, MIC)**라고 한다
minepy 패키지를 사용하면 최대정보 상관계수를 구할 수 있다. 다음은 선형상관계수(피어슨 상관계수)로 0이 나오지만 비선형적인 상관관계를 가지는 데이터들에 대해 최대정보 상관계수를 구한 결과다.


통계에서 최대 정보 계수는 두 변수 X와 Y 사이의 선형 또는 비선형 연관 강도를 측정 한 것입니다. MIC는 최대 정보 기반 비모수 탐색 통계 클래스에 속합니다.

Returns the Maximal Information Coefficient (MIC or MIC_e).


It is related to the relationship strenght and it can be interpreted as a correlation measure. It is symmetric and it ranges in [0,1], where it tends to 0 for statistically independent data and it approaches 1 in probability for noiseless functional relationships (more details can ben found in the original paper).

MIC(D)=max_{XY<B(n)} M(D)_{X,Y}=max_{XY<B(n)} I*(D,X,Y)/log(min(X,Y)),



MAS(Maximum Asymmetry Score)

Returns the Maximum Asymmetry Score (MAS).

It captures the deviation from monotonicity. Note that MAS < MIC.
Note: it can be useful for detecting periodic relationships (unknown frequencies).

MAS(D) = max_{XY<B(n)} |M(D)_{X,Y} - M(D)_{Y,X}|.

MEV(Maximum Edge Value)

Returns the Maximum Edge Value (MEV).

It measures the closeness to being a function. Note that MEV <= MIC.

MEV(D) = max_{XY<B(n)} {M(D)_{X,Y}: X=2 or Y=2}.

MCN(Minimum Cell Number)

Returns the Minimum Cell Number (MCN) with eps >= 0.

It is a complexity measure.

MCN(D,ε) = min_{XY<B(n)} {log(XY): M(D)_{X,Y} >= (1-ε)MIC(D)}.

MCN_general

Returns the Minimum Cell Number (MCN) with eps = 1 - MIC.

GMIC

Returns the Generalized Maximal Information Coefficient (GMIC).

TIC

Returns the Total Information Coefficient (TIC or TIC_e). If norm==True TIC will be normalized in [0, 1].

PCC_SQRT  
PCC(Pearson correlation coefficient)
피어슨 상관계수
두 변수 X 와 Y 간의 선형 상관 관계를 계량화한 수치다

It measures the closeness to being a function. Note that MEV <= MIC.

Correlation Analysis

MIC(Maximal Information Coefficient)
최대정보 상관계수 

MIC(D)=max_{XY<B(n)} M(D)_{X,Y}=max_{XY<B(n)} I*(D,X,Y)/log(min(X,Y)),

MAS(Maximum Asymmetry Score)

MAS(D) = max_{XY<B(n)} |M(D)_{X,Y} - M(D)_{Y,X}|.

MEV(Maximum Edge Value)

MEV(D) = max_{XY<B(n)} {M(D)_{X,Y}: X=2 or Y=2}.

MCN(Minimum Cell Number)

MCN(D,ε) = min_{XY<B(n)} {log(XY): M(D)_{X,Y} >= (1-ε)MIC(D)}.

MCN_general

Returns the Minimum Cell Number (MCN) with eps = 1 - MIC.

GMIC

Returns the Generalized Maximal Information Coefficient (GMIC).

TIC

Returns the Total Information Coefficient (TIC or TIC_e). If norm==True TIC will be normalized in [0, 1].

PCC_SQRT  
PCC(Pearson correlation coefficient)

 

 

www.ncbi.nlm.nih.gov/pmc/articles/PMC3921152/

MIC can be used as a metric for the exploration of large datasets, and the detection of close associations between tens of thousands of variable pairs in large datasets. MIC uncovers variables that not only have functional associations but are also statistically independent. MIC is part of a larger family of maximal information-based nonparametric exploration (MINE) statistics. In addition to the MIC measure, MINE provides three additional measures: maximum asymmetry score (MAS), maximum edge value (MEV), and minimum cell cumber (MCN). As a measure of dependence, the MIC has two heuristic properties: generality and equitability. These characteristics make the MIC particularly suitable for applications in bioinformatics;

 

의역

더보기

MIC는 대규모 데이터 세트의 탐색과 대규모 데이터 세트의 수만 변수 쌍 간의 밀접한 연관성 탐지를 위한 메트릭으로 사용될 수 있다. MIC는 기능적 연관성을 가질 뿐만 아니라 통계적으로 독립적인 변수를 탐지합니다. MIC는 최대 정보 기반 비모수 탐색(MINE) 통계량의 큰 계열에 속한다. MIC 측정 외에도 MINE은 최대 비대칭 점수(MAS), 최대 에지 값(MEV), 최소 셀 누적(MCN)의 세 가지 추가 측정값을 제공합니다. 의존성의 척도로서, MIC는 일반성과 평등성의 두 가지 경험적 특성을 가지고 있다. 이러한 특성으로 인해 MIC는 특히 생물정보학 분야에 적합하다

 

www.researchgate.net/publication/343842149_Reducing_the_Collision_Damage_Done_to_the_Tips_of_Steel_Needles_during_Integrated_Piercing_by_Using_Shape_Optimization_with_Feature_Selection

(MIC) [36] is the latest method for detecting nonlinearcorrelations between variables. Applying the concepts ofinformation theory and probability to continuous data, theMIC algorithm can represent various linear and nonlinearrelationships and has been used widely. Its range is between0 and 1, and the higher the value, the stronger thecorrelation.

(MIC) [36]은 변수 간의 비선형 상관 관계를 탐지하는 최신 방법입니다. 정보 이론과 확률의 개념을 연속 데이터에 적용하여, MIC 알고리듬은 다양한 선형 및 비선형 관계를 나타낼 수 있으며 널리 사용되어 왔다. 범위는 0과 1 사이이고 값이 클수록 상관 관계가 강합니다.

 

 

 

 

 

 

papers.phmsociety.org/index.php/phme/article/download/1625/587

 

 

 

머신러닝 알고리즘

Random Forest  
Linear Regression  
Nearest Neighbor  
Kernel Ridge Regression  
Bayesian Ridge Regression  
Neural Network  
Support Vector Machine  

Scaler

개념  
AutoLoad  
False  
StandardScaler  
MinMaxScaler  
Normalizer  
RobustScaler  

 

k-folds

개념  

Hyper Parameter

개념  
   

각모델별로 파라미터 조정

 


blog.naver.com/laonple/220801886806

 

[머신러닝] INTRO

쉽게 읽는 머신 러닝 - Intro - 머신 러닝에 관련된 전문서적이나 논문이 대부분 수식 위주로 되어 있다 ...

blog.naver.com

datascienceschool.net/02%20mathematics/10.04%20%EC%83%81%ED%98%B8%EC%A0%95%EB%B3%B4%EB%9F%89.html

 

10.4 상호정보량 — 데이터 사이언스 스쿨

이 절에서는 상관계수를 대체할 수 있는 확률변수 특성인 상호정보량에 대해 공부한다. 이산확률변수의 상호정보량 상관관계가 있는 두 개의 카테고리 확률변수 \(X, Y\)에서 나온 표본 데이터 \(

datascienceschool.net

상관계수에 대해서 설명한 논문

www.ncbi.nlm.nih.gov/pmc/articles/PMC3561932/

파이썬 minepy doc

minepy.readthedocs.io/en/latest/python.html

 

Python API — minepy 1.2.5 documentation

Parameters: alpha (float (0, 1.0] or >=4) – if alpha is in (0,1] then B will be max(n^alpha, 4) where n is the number of samples. If alpha is >=4 then alpha defines directly the B parameter. If alpha is higher than the number of samples (n) it will be li

minepy.readthedocs.io

rdrr.io/cran/minerva/man/mine.html

 

mine: MINE family statistics Maximal Information-Based... in minerva: Maximal Information-Based Nonparametric Exploration for Va

MINE family statistics Maximal Information-Based Nonparametric Exploration (MINE) statistics. mine computes the MINE family measures between two variables.

rdrr.io