개발 집합은 시도 중인 알고리즘 간의 차이를 감지

개발 집합은 시도 중인 알고리즘 간의 차이를 감지할 수 있을 정도로 커야 합니다. 예를 들어, 분류기 A의 정확도가 90.0%이고 분류기 B의 정확도가 90.1%인 경우 100개의 예시로 구성된 dev 집합은 이 0.1%의 차이를 탐지할 수 없습니다. 지금까지 본 다른 기계 학습 문제와 비교하면 100개의 예제 개발 세트가 작습니다. 크기가 1,000에서 10,000인 개발 집합이 일반적입니다. 10,000개의 예제를 사용하면 0.1%의 개선 효과를 발견할 수 있습니다.

성숙하고 중요한 애플리케이션(예: 광고, 웹 검색 및 제품 권장 사항)의 경우:회사의 수익에 직접적인 영향을 미치기 때문에 0.01%의 개선이라도 어떻게든 해내려는 의욕이 강한 팀도 보았습니다. 이 경우 더 작은 개선 사항을 탐지하기 위해 개발 집합이 10,000개보다 훨씬 클 수 있습니다. 테스트 세트의 크기는 어떻습니까? 시스템의 전체 성능을 신뢰할 수 있을 정도로 커야 합니다. 일반적인 경험적 접근법 중 하나는 데이터의 30%를 검정 세트에 사용하는 것입니다. 예를 들어, 100~10,000개의 예제를 사용하는 등 적은 수의 예제를 사용하는 경우 효과가 있습니다.

그러나 10억 개 이상의 예시로 인해 기계 학습 문제가 발생하는 빅데이터 시대에 개발/테스트 세트의 절대적인 예제가 증가하고 있음에도 불구하고 개발/테스트 세트에 할당되는 데이터의 비율은 줄어들고 있습니다. 알고리즘의 성능을 평가하는 데 필요한 것보다 지나치게 큰 개발/테스트 세트를 가질 필요가 없습니다. 분류 정확도는 단일 번호 평가 메트릭의 예입니다. 개발 세트(또는 테스트 세트)에서 분류자를 실행하여 올바르게 분류된 예제의 일부에 대한 단일 숫자를 얻을 수 있습니다. 이 메트릭에 따르면 분류기 A가 97%의 정확도를 얻고 분류기 B가 90%의 정확도를 얻으면 분류기 A가 우수하다고 판단합니다.

반면 정밀도 및 호출은 단일 숫자 평가 지표가 아닙니다. 분류자를 평가하기 위한 두 개의 3개의 숫자를 제공합니다. 여러 개의 숫자 평가 메트릭이 있으면 알고리즘을 비교하기가 더 어렵습니다. 알고리즘이 다음과 같이 작동한다고 가정해 보겠습니다. 여기서 두 분류기 모두 확실히 우수하지 않으므로, 즉시 하나를 선택하는 데 도움이 되지 않습니다. 개발 중에 팀은 알고리즘 아키텍처, 모델 매개 변수, 기능 선택 등에 대한 많은 아이디어를 시도할 것입니다. 정확도와 같은 단일 번호 평가 메트릭을 사용하면 이 메트릭의 성능에 따라 모든 모델을 정렬하고 가장 적합한 모델을 신속하게 결정할 수 있습니다.

Precision과 Recall을 모두 고려하는 경우 표준 방법 중 하나를 사용하여 하나의 번호로 결합하는 것이 좋습니다. 예를 들어, 정밀도와 호출의 평균을 구해서 하나의 숫자로 끝낼 수 있습니다. 또는 평균을 계산하는 수정된 방법인 “F1 점수”를 계산할 수 있으며 단순히 평균을 취하는 것보다 더 잘 작동합니다. 단일 번호 평가 메트릭을 사용하면 많은 분류자 중에서 선택할 때 결정을 내릴 수 있는 속도가 빨라집니다. 그것은 그들 모두에게 명확한 선호 순위를 부여하고, 따라서 분명한 진행 방향을 제시합니다.

마지막으로 (i) 미국, (ii) 중국, (ii) 인도, (iv) 기타의 네 가지 주요 시장에서 고양이 분류기의 정확도를 별도로 추적한다고 가정해 보겠습니다. 여기에는 네 가지 측정 기준이 있습니다. 이 네 숫자의 평균 또는 가중 평균을 취하면 단일 숫자 메트릭이 됩니다. 평균 또는 가중 평균을 취하는 것은 여러 메트릭을 하나로 결합하는 가장 일반적인 방법 중 하나입니다. 대신 다음과 같은 작업을 수행할 수 있습니다. 먼저 “허용 가능한” 실행 시간을 정의합니다. 100ms 내에 실행되는 모든 것이 허용된다고 가정해당됩니다.

그런 다음, 분류자가 실행 시간 기준을 충족하는지 여부에 따라 정확도를 최대화합니다. 여기서 실행 시간은 “만족하는 측정 기준”입니다. 즉, 최대 100ms가 소요된다는 의미에서 이 측정 기준에서 분류자는 “충분히”만족하면 됩니다. 정확성은 “최적화 메트릭”입니다. 모델의 이진 파일 크기(사용자가 큰 앱을 다운로드하지 않으려 하므로 모바일 앱에 중요), 실행 시간 및 정확성과 같은 N개의 다른 기준을 교환하는 경우 기준의 N-1을 “만족” 메트릭으로 설정하는 것을 고려할 수 있습니다.

즉, 단순히 특정 값을 충족하도록 요구하는 것입니다. 그런 다음 마지막 메트릭을 “최적화” 메트릭으로 정의합니다. 예를 들어 이진 파일 크기와 실행 시간에 허용되는 임계값을 설정하고 이러한 제약 조건을 고려하여 정확성을 최적화합니다.