목록전체 글 (242)
Cloud / Distributed computing

Feature Selection이란? Feature Selection은 ML에 있어서 매우 중요한 기술입니다. Feature Selectiond의 기본적인 아이디어는, 모델링 시 raw data의 모든 feature를 사용하는 것은 computing power와 memory 측면에서 매우 비효율적이기 때문에, 일부 필요한 feature만 선택해서 사용하자는 것입니다. 어떻게 보면, Feature Selection은 여러분의 모델 성능을 높이기 위해서 반드시 필요한 기술 중 하나입니다. Feature Selection은 Feature Enginerring, Feature Extraction과 유사하지만, 표현 자체는 구분되며, 간단하게 정리하면 아래와 같습니다. Feature Enginerring : 도메..

해당 포스트에서는 HDD, SSD의 개념과 차이점에 대해 살펴보겠습니다. 사전 지식 CPU 중앙처리장치 컴퓨터의 모든 연산과 작업을 처리 RAM(Memory) 주기억장치 CPU 작업 연산을 임시로 저장해주며, CPU 작업을 효율적으로 도와주는 보조역할 만약, 램카드에 용량이 부족하다면, CPU 작업을 처리하는데 필요한 정보를 HDD에서 가져오게 됩니다. HDD HDD의 작업처리속도는 CPU나 램카드의 작업처리속도에 비해 현저히 느립니다. 따라서, CPU가 아무리 고성능이고, 램카드의 용량과 클럭이 아무리 높다고 하더라도 직접적으로 데이터를 공급해주는 HDD가 느리다면, 컴퓨터의 전체 속도가 낮아집니다. 이런 HDD의 단점을 보완해주는 부품이 바로 SSD입니다. HDD란? HDD는, 모터가 자성체를 입힌 ..
log4j Apache Spark 작업을 실행할 때, 작업이 어떻게 진행되는지 로그를 찍어가며 확인하고 싶다면 Apache log4j을 사용해 Log를 확인할 수 있다. log4j는 Scala에서도 사용할 수 있는 인기있는 Java 기반 로깅 유틸리티이다. 사용 예제 import org.apache.log4j.LogManager val log = LogManager.getRootLogger log.warn("test")