Correlation Analysis
MIC(Maximal Information Coefficient) 최대정보 상관계수 |
연속확률변수의 표본 데이터에서 상호정보량을 측정하려면 우선 확률분포함수를 알아야한다. 확률분포함수는 보통 히스토그램을 사용하여 유한개의 구간(bin)으로 나누어 추정하게되는데 이 때 구간의 갯수나 경계 위치에 따라 추정오차가 커질 수 있다. 따라서 구간을 나누는 방법을 다양하게 시도한 다음에 그 결과로 구한 다양한 상호정보량 중에서 가장 큰 값을 선택하여 정규화한 것을 **최대정보 상관계수(maximal information coefficient, MIC)**라고 한다 minepy 패키지를 사용하면 최대정보 상관계수를 구할 수 있다. 다음은 선형상관계수(피어슨 상관계수)로 0이 나오지만 비선형적인 상관관계를 가지는 데이터들에 대해 최대정보 상관계수를 구한 결과다. 통계에서 최대 정보 계수는 두 변수 X와 Y 사이의 선형 또는 비선형 연관 강도를 측정 한 것입니다. MIC는 최대 정보 기반 비모수 탐색 통계 클래스에 속합니다. Returns the Maximal Information Coefficient (MIC or MIC_e). |
MAS(Maximum Asymmetry Score) |
Returns the Maximum Asymmetry Score (MAS). |
MEV(Maximum Edge Value) |
Returns the Maximum Edge Value (MEV). |
MCN(Minimum Cell Number) |
Returns the Minimum Cell Number (MCN) with eps >= 0. |
MCN_general |
Returns the Minimum Cell Number (MCN) with eps = 1 - MIC. |
GMIC |
Returns the Generalized Maximal Information Coefficient (GMIC). |
TIC |
Returns the Total Information Coefficient (TIC or TIC_e). If norm==True TIC will be normalized in [0, 1]. |
PCC_SQRT | |
PCC(Pearson correlation coefficient) 피어슨 상관계수 |
두 변수 X 와 Y 간의 선형 상관 관계를 계량화한 수치다 |
It measures the closeness to being a function. Note that MEV <= MIC.
Correlation Analysis
MIC(Maximal Information Coefficient) 최대정보 상관계수 |
MIC(D)=max_{XY<B(n)} M(D)_{X,Y}=max_{XY<B(n)} I*(D,X,Y)/log(min(X,Y)), |
MAS(Maximum Asymmetry Score) |
MAS(D) = max_{XY<B(n)} |M(D)_{X,Y} - M(D)_{Y,X}|. |
MEV(Maximum Edge Value) |
MEV(D) = max_{XY<B(n)} {M(D)_{X,Y}: X=2 or Y=2}. |
MCN(Minimum Cell Number) |
MCN(D,ε) = min_{XY<B(n)} {log(XY): M(D)_{X,Y} >= (1-ε)MIC(D)}. |
MCN_general |
Returns the Minimum Cell Number (MCN) with eps = 1 - MIC. |
GMIC |
Returns the Generalized Maximal Information Coefficient (GMIC). |
TIC |
Returns the Total Information Coefficient (TIC or TIC_e). If norm==True TIC will be normalized in [0, 1]. |
PCC_SQRT | |
PCC(Pearson correlation coefficient) |
www.ncbi.nlm.nih.gov/pmc/articles/PMC3921152/
MIC can be used as a metric for the exploration of large datasets, and the detection of close associations between tens of thousands of variable pairs in large datasets. MIC uncovers variables that not only have functional associations but are also statistically independent. MIC is part of a larger family of maximal information-based nonparametric exploration (MINE) statistics. In addition to the MIC measure, MINE provides three additional measures: maximum asymmetry score (MAS), maximum edge value (MEV), and minimum cell cumber (MCN). As a measure of dependence, the MIC has two heuristic properties: generality and equitability. These characteristics make the MIC particularly suitable for applications in bioinformatics;
의역
MIC는 대규모 데이터 세트의 탐색과 대규모 데이터 세트의 수만 변수 쌍 간의 밀접한 연관성 탐지를 위한 메트릭으로 사용될 수 있다. MIC는 기능적 연관성을 가질 뿐만 아니라 통계적으로 독립적인 변수를 탐지합니다. MIC는 최대 정보 기반 비모수 탐색(MINE) 통계량의 큰 계열에 속한다. MIC 측정 외에도 MINE은 최대 비대칭 점수(MAS), 최대 에지 값(MEV), 최소 셀 누적(MCN)의 세 가지 추가 측정값을 제공합니다. 의존성의 척도로서, MIC는 일반성과 평등성의 두 가지 경험적 특성을 가지고 있다. 이러한 특성으로 인해 MIC는 특히 생물정보학 분야에 적합하다
(MIC) [36] is the latest method for detecting nonlinearcorrelations between variables. Applying the concepts ofinformation theory and probability to continuous data, theMIC algorithm can represent various linear and nonlinearrelationships and has been used widely. Its range is between0 and 1, and the higher the value, the stronger thecorrelation.
(MIC) [36]은 변수 간의 비선형 상관 관계를 탐지하는 최신 방법입니다. 정보 이론과 확률의 개념을 연속 데이터에 적용하여, MIC 알고리듬은 다양한 선형 및 비선형 관계를 나타낼 수 있으며 널리 사용되어 왔다. 범위는 0과 1 사이이고 값이 클수록 상관 관계가 강합니다.
papers.phmsociety.org/index.php/phme/article/download/1625/587
머신러닝 알고리즘
Random Forest | |
Linear Regression | |
Nearest Neighbor | |
Kernel Ridge Regression | |
Bayesian Ridge Regression | |
Neural Network | |
Support Vector Machine |
Scaler
개념 | |
AutoLoad | |
False | |
StandardScaler | |
MinMaxScaler | |
Normalizer | |
RobustScaler |
k-folds
개념 |
Hyper Parameter
개념 | |
각모델별로 파라미터 조정
blog.naver.com/laonple/220801886806
datascienceschool.net/02%20mathematics/10.04%20%EC%83%81%ED%98%B8%EC%A0%95%EB%B3%B4%EB%9F%89.html
상관계수에 대해서 설명한 논문
www.ncbi.nlm.nih.gov/pmc/articles/PMC3561932/
파이썬 minepy doc
minepy.readthedocs.io/en/latest/python.html
rdrr.io/cran/minerva/man/mine.html