유용한 사실을 찾아내는 불필요한 사실을 갖지 않는 것이 가장 중요

두 번째 효과를 다른 용어로 설명하자면, 우리는 가상의 인물인 셜록 홈즈에게 의지할 수 있습니다. 셜록 홈즈는 당신의 뇌는 다락방과 같다고 말합니다. 한정된 공간만을 가지고 있습니다. 그는 “지식을 추가할 때마다 이전에 알고 있던 것을 잊게 된다. 따라서 유용한 사실을 찾아내는 불필요한 사실을 갖지 않는 것이 가장 중요합니다.”

다행히 충분히 큰 신경 네트워크(즉, 충분히 큰 다락방)를 구축하는 데 필요한 계산 능력이 있다면 이는 심각한 문제가 아닙니다. 두 가지 유형의 데이터가 용량을 다투지 않고 인터넷과 모바일 앱 이미지 모두에서 학습할 수 있는 충분한 용량이 있습니다. 알고리즘의 “두뇌”는 다락방 공간이 부족해질 염려가 없을 정도로 충분히 큽니다. 그러나 충분히 큰 뉴럴 네트워크(또는 다른 매우 유연한 학습 알고리즘)가 없는 경우 개발/테스트 세트의 분포와 일치하는 훈련 데이터에 더욱 주의를 기울여야 합니다.

아무런 이점이 없는 데이터는 계산상의 이유로 생략하는 것이 좋습니다. 예를 들어 개발/테스트 세트에 주로 사람, 장소, 랜드마크, 동물의 일상적인 사진이 포함되어 있다고 가정합니다. 스캔한 기록 문서 모음도 많이 있다고 가정합니다. 이 문서에는 고양이를 닮은 것은 포함되어 있지 않습니다. 또한 개발/검정 분포와 완전히 다르게 보입니다. 위의 첫 번째 효과에서 얻을 수 있는 이점은 무시할 수 있기 때문에 이 데이터를 부정적인 예로서 포함시키는 것은 의미가 없습니다.

뉴럴 네트워크가 이 데이터에서 얻을 수 있는 것은 개발/테스트 세트의 분포에 적용할 수 있는 것은 거의 없습니다. 이들을 포함하면 뉴럴 네트워크의 계산 자원과 표현 능력이 낭비된다. 뉴욕의 집값을 예측하는 방법을 배우려고 합니다. 주택 크기(입력 피쳐 x)가 주어지면 가격(표적 레이블 y)을 예측하려고 합니다. 뉴욕시의 집값은 매우 높다. 집값이 훨씬 낮은 미시간주 디트로이트에 두 번째 집값 데이터 세트가 있다고 가정해 보겠습니다. 이 데이터를 트레이닝 세트에 포함해야 합니까? 같은 크기 x가 주어질 경우, Y의 집값은 뉴욕시냐 디트로이트시냐에 따라 매우 다르다.

뉴욕시 주택 가격 예측에만 신경을 쓴다면 두 데이터 세트를 합치면 성능이 저하될 수 있습니다. 이 경우 일관성이 없는 디트로이트 데이터는 제외하는 것이 좋습니다.13 뉴욕시와 디트로이트의 예는 모바일 앱과 인터넷 고양이 이미지의 예와 다르다. 고양이 이미지의 예는 입력화면 x에 따라 인터넷 이미지인지 모바일 앱 이미지인지 몰라도 고양이가 있는지 여부를 나타내는 라벨 y를 확실하게 예측할 수 있기 때문에 다르다.

즉, x의 원점을 몰라도 입력 x에서 목표 출력 y로 확실하게 매핑하는 함수 f(x)가 있다. 따라서 인터넷 이미지 인식 태스크는 모바일 앱 이미지 인식 태스크와 “일관”된다. 즉, 모든 데이터를 포함시키는 데 있어 (계산 비용 이외에는) 단점이 거의 없으며, 일부 상당한 이점이 있을 수 있습니다. 반면 뉴욕시와 미시간주 디트로이트의 데이터는 일치하지 않습니다. x(집 크기)가 같기 때문에 집이 어디에 있느냐에 따라 가격이 크게 다릅니다.