본문 바로가기

Data Science6

벡터 DB 검색 기본 개념 : Embedding (2) 2025.12.08 - [Data Science] - 벡터 DB 검색 기본 개념 : Embedding, ANN 개요 (1)지난 글에서는 벡터 DB가 무엇이고, ANN 인덱싱 구조가 어느 방식으로 의미상 유사 벡터를 빠르게 찾는지를 정리했다. 이번 글에서는 벡터 DB가 의미를 표현할 수 있게 만드는 Embedding 과정에 집중해본다. EmbeddingEmbedding은 벡터 DB 검색에서 의미를 숫자 공간으로 투영하는 과정이다.일반적으로 딥러닝 모델의 Feature를 Embedding으로 사용하기 때문에, 딥러닝 모델이 어느 objective로 학습되었는지에 따라 벡터의 의미가 결정된다.예를들어, Image Classification 모델의 중간 Feature를 사용한다면, 이미지의 모양과 색깔 등의 시.. 2025. 12. 9.
벡터 DB 검색 기본 개념 : Embedding, ANN 개요 (1) 벡터 DB벡터 DB란 텍스트, 이미지, 오디오 같은 비정형 데이터들을 벡터(코드 관점에선 숫자의 배열) 형태로 저장해놓고, 이 들 사이의 유사도(similarity)를 기반으로 빠르게 검색하기 위해 특화된 데이터베이스이다.일반적으로 ML(특히 딥러닝 모델)을 이용하여 의미를 함축시켜 숫자배열로 표현하는 Embedding 과정을 거쳐 고차원 벡터로 변환한 뒤, DB에 저장된다.벡터 DB를 한 문장으로 요약하면, 비정형성의 데이터를 의미기반으로 검색하기 위해 벡터를 저장하고 탐색하는 DB이다. 벡터 DB와 기존 검색 엔진과의 차이전통 검색 엔진(Elasitcsearch의 BM25)이나 정형데이터를 처리하는 RDBMS와 다른 점은 기존 DB들이 정확히 일치하거나 범위 검색을 하는데 최적화되어 있다면, 벡터 .. 2025. 12. 8.
DTW(Dynamic Time Warping) DTW는 두 시계열의 데이터를 비교하기 위해 자주 사용하는 방법이다. 그 원리와 사용법을 제대로 알아보자. DTW 란? DTW(Dynamic Time Warping)은 시계열 데이터 간의 유사성을 비교하기 위한 알고리즘이다. DTW는 시계열 데이터 간의 길이나 속도가 달라도, 이것을 고려하여 유사성을 측정할 수 있기 때문에 시계열 데이터 분석에 많이 활용된다. DTW는 시계열 형태의 sequence 데이터에 모두 활용할 수 있다. DTW의 유사도를 바탕으로 두 시계열 데이터 간의 시간 정렬(time alignment)을 할 수 있다. DTW는 음성인식이나 자연어처리에 자주 활용된다. DTW 이해 그림의 두 시계열 데이터를 보았을때, 길이와 형태가 다르지만, 비슷한 Pattern을 띄고 있다는 것을 알 수.. 2023. 6. 2.
PCA(Principal Component Analysis) PCA는 차원 축소의 대표적인 기법이다. 다루고자 하는 데이터의 차원이 많을때, 보통 PCA를 먼저 생각하게 된다. 수업에서 배운 기억이 남아있는데, 너무 오래되어, 다시 한번 공부해보기로 한다. PCA 란? PCA(Principal Component Analysis)는 이름 그대로, 데이터에서 주성분(Principal Component)을 추출하여, 주성분만으로 원 데이터를 표현하는 방법이다. PCA는 다차원의 데이터셋 내에서 변수들간의 상관관계를 이용하여, 이를 새로운 좌표계로 변환하여 차원을 축소한다. PCA는 다음과 같은 이유로 많이 사용된다. 데이터의 차원 축소 : 실제 데이터 분석에서 데이터의 Dimension은 고차원인 경우가 많다. 데이터의 모든 Dimension을 하나 하나 분석하기는 매.. 2023. 5. 4.
이상치(Outlier) 제거 방법(2) - 머신 러닝 이용 방법 이상치 제거에서 통계적인 방법은 유용하게 사용되지만, 다루는 데이터가 복잡하고, 차원이 커질수록, 단순 분포의 개념을 활용하기는 어렵다. 이를 해결하기 위한, 이상치 제거 방법 중, 머신 러닝 기반 방법들을 몇가지 알아보기로한다. 머신러닝을 이용한 이상치(Outlier) 제거 방법 1. Cook Distance를 이용한 방법 Cook Distance는 회귀분석 문제에서 이상치를 찾기 위해 많이 사용되는 방법이다. 각 데이터포인트가 회귀분석 모델의 예측력에 어느 정도 영향을 미치는지를 확인하여, 이상치 제거에 활용할 수 있다. (해당 데이터 포인트를 제거한 모델이 오히려 더 좋은 예측력을 가질 때, 해당 데이터 포인트를 이상치로 간주할 수 있다. ) Cook Distance를 이용한 이상치 제거의 단계는 .. 2023. 3. 31.
이상치(Outlier) 제거 방법(1) - 통계적 방법 이상치 제거는 데이터 분석에서 매우 중요하다. 특히, 요즘에는 어떤 모델을 사용하나 보다, 어떤 데이터로 학습할지가 모델 성능에 더 중요한 요소가 된 만큼, 이상치 제거는 그 중요성이 더욱 커졌다. 이상치 제거 방법은 정말 많지만, 자주 사용하는 몇 가지 방법을 알아보기로 한다. 이상치(Outlier) 란? 이상치란 일반적인 데이터 분포를 따르지 않는 값으로, 다른 데이터와 차이가 매우 큰 값을 가진 데이터 포인트를 의미한다. 이상치가 생기는 요인은 데이터 수집 과정에서 오류가 발생하거나, 데이터 자체가 이상치를 포함하고 있는 경우, 변경점 발생으로 인한 데이터 분포 변화 등이 존재한다. 이상치는 상대적인 개념이다. 즉, 어떤 데이터를 어떻게 분석하고, 어느 기준으로 이상치를 판별할 것이냐에 따라, 이상.. 2023. 3. 19.