본문 바로가기
728x90

츄Log/데이터 끄적2

Dense/Sparse feature(data) 데이터 시스템을 공부하다가 Dense/Sparse feature(data)라는 키워드를 보았습니다. 조금 찾아보니 데이터시스템에서 사용되며 특히 머신러닝에서 많이 사용되는 것 같습니다. 머신러닝 개발자가 아니므로 가볍게 키워드만 알아보려고 합니다. 머신러닝에서 feature는 특정 가능하고 수량화 가능한 속성이나 사물, 사람 또는 현상의 "특성"을 나타내는 말입니다. 이 feature는 크게 dense와 sparse로 분류할 수 있습니다. Dense는 말 그대로 밀집된 데이터이며 Sparse는 희소한 데이터입니다. 분포의 정도에 따라 machine learning 알고리즘에 영향을 미칩니다. 알고리즘은 dense/sparse 특징에 따라 다르게 수행될 수 있기 때문입니다. 1. Dense 데이터 세트에서.. 2024. 1. 3.
툼스톤(Tombstone)이란? 툼스톤 사용하는 이유 안녕하세요! 오늘은 분산 데이터 시스템에서 자주 사용되는 툼스톤에 대해 알아보겠습니다. 툼스톤은 묘비죠. 묘비는 무덤 앞에 있는 것으로 죽음을 표현할 때 사용됩니다. 묘비, 즉 툼스톤은 분산 데이터베이스 시스템에서 삭제된 데이터를 표현할 때 씁니다. 데이터를 삭제했을 때 묘비를 두어 데이터가 삭제됨을 표현하는 것이죠. 그럼 이 툼스톤은 왜 사용하는 걸까요? 분산 데이터 시스템은 Eventual Consistency 모델을 차용합니다. Eventual Consistency 특성상 삽입/삭제가 완료되었다고 하더라도 일부 노드에는 정보가 누락될 수 있습니다. 이런 특성은 삭제 명령시 문제를 야기합니다. 아래 멀티 노드 클러스터 예시를 보겠습니다. Node1에 데이터가 삽입되어 Node2에 복제합니다. Node.. 2023. 12. 3.
728x90