feature importance(잡케어 참고, 설명 좀더 보충할것)
feature importance를 randomforest로 찍어서 중요 feature들을 선별, 나머지 correlation으로 중요한 feature들을 판단해서 feature들을 정제하고 합치면서 engineering을 하는것이 중요함. predict의 정확성을 해치는 무의미한 column들을 없애는것임.
개인적으로 기법들은 참고정도로 하고 응용한 사례들을 많이 보면서 insight를 얻어야할듯!
minsing식 tip)
MI score라던지 barplot이라던지 이런 eda를 통해서 각 column간의 correlation들을 분석하고, 여기서 insight를 얻어 feature engineering을 해보는것이 원리임!
MI score가 잘 안나온 feature라고 해도 현실의 정보와 연관성이 있을것 같은 녀석들을 plot이나 heatmap과 같은 data visualization을 해보면서 상관관계를 분석해서 새로운 feature를 만든다.
근데 현실세계의 정보가 없다? 그렇다면 그건 그대로 insight를 mi score나 거기에 특화된 plot들을 그려보면서 correlation을 분석
Mutual Information은 두 random variable들이 얼마나 mutual dependence한지를 measure하는 방법을 의미한다. feature가 target value와 independence한지 dependence한지 측정해주는 수단임. 값이 높을수록 indendence함.
→ feature engineering을 하기 위한 수단, insight를 얻는 방법중 하나인듯
엔트로피는 정보량을 의미하며 열역학 제 2법칙처럼 엔트로피(정보가 많아지면)가 높아지면 불확실성이 높아진다. 정보에 대한 불확실성의 정도를 수치로 나타낸 단위이다.
cf) what is the entropy of a variable?