무작위 샘플링 기술의 4가지 유형 설명
"왜 무작위 샘플링에 관심을 가져야 합니까?"
이유는 다음과 같습니다. 데이터 과학자이고 모델을 개발하려면 데이터가 필요합니다. 그리고 데이터가 필요하면 누군가는 그 데이터를 수집해야 합니다. 그리고 누군가 데이터를 수집하는 경우 데이터가 편향되지 않았는지 확인해야 합니다. 그렇지 않으면 비용이 매우 많이 듭니다.장기적으로는.
그러므로 편견 없이 수집하고 싶다면데이터를 수집하려면 무작위 샘플링에 대해 알아야 합니다.
데이터 과학 인터뷰를 위해 알아야 할 Terence Shin10 고급 SQL 개념에 대한 추가 정보
무작위 샘플링은 모집단의 모든 요소가 표본으로 선택될 확률이 동일한 상태를 간단히 설명합니다. 간단하게 들리죠? 글쎄요, 편견을 최소화하기 위해서는 많은 실행 계획을 고려해야 하기 때문에 말처럼 실천하기가 훨씬 쉽습니다. 이러한 네 가지 유형의 무작위 샘플링 기술을 사용하면 바로 이러한 작업을 수행할 수 있습니다.
단순 무작위 샘플링에서는 무작위로 생성된 숫자를 사용하여 샘플을 선택해야 합니다. 보다 구체적으로 말하면, 처음에는 모집단의 모든 구성원에 대한 목록 또는 데이터베이스인 샘플링 프레임이 필요합니다. 그런 다음 예를 들어 Excel을 사용하여 각 요소에 대해 무작위로 숫자를 생성하고 필요한 처음 n개의 샘플을 가져올 수 있습니다.
예를 들어 오른쪽 테이블이 샘플링 프레임이라고 상상해 보세요. Excel과 같은 소프트웨어를 사용하면 샘플링 프레임의 각 요소에 대해 난수를 생성할 수 있습니다. 3개의 표본 크기가 필요한 경우 1부터 3까지의 임의의 숫자로 표본을 추출합니다.
층화 무작위 샘플링에는 모집단을 유사한 속성을 가진 그룹으로 나누고 각 그룹을 무작위로 샘플링하는 작업이 포함됩니다.
이 방법을 사용하면 모집단의 다양한 세그먼트가 동일하게 표시됩니다. 예를 들어, 전반적인 만족도를 알아보기 위해 학교에서 설문조사를 실시한다고 가정해 보겠습니다. 여기서 계층화된 무작위 표본추출은 각 학과 학생들의 의견을 동일하게 나타낼 수 있습니다.
클러스터 샘플링은 모집단을 그룹이나 클러스터로 나누는 것으로 시작됩니다. 이것이 계층화된 샘플링과 다른 점은 각 클러스터가 더 큰 모집단을 대표해야 한다는 것입니다. 그런 다음 샘플링할 전체 클러스터를 무작위로 선택합니다.
예를 들어, 학교에 8학년 학급이 5개 있는 경우 군집 무작위 샘플링은 임의의 한 학급이 표본 역할을 한다는 것을 의미합니다.
체계적인 무작위 샘플링 모든 k번째 요소를 샘플링하는 일반적인 기술입니다. 예를 들어, 쇼핑몰에서 설문조사를 실시한다면 들어오는 100번째 사람마다 설문조사를 실시할 수 있습니다.
샘플링 프레임이 있는 경우 프레임 크기 N을 원하는 샘플 크기 n으로 나누어 인덱스 번호 k를 얻습니다. 그런 다음 프레임의 모든 k번째 요소를 선택하여 샘플을 만듭니다.
첫 번째 예와 동일한 차트를 사용하여 이번에는 2의 샘플 크기를 원한다면 샘플링 프레임에서 세 번째 행마다 가져옵니다.
데이터 과학에 대한 추가 정보 Python과 Laravel을 사용하여 검색 엔진을 만드는 방법
이제 무작위 샘플링이 무엇인지, 그리고 이를 수행하기 위한 몇 가지 일반적인 기술을 이해하게 되었습니다. 편견을 최소화하고 더 나은 모델을 만들려면 이 개념을 익히는 것이 매우 중요합니다.