빅데이터 시대에는 대규모 훈련 세트에 접근

하지만 빅데이터 시대에는 고양이 인터넷 이미지와 같은 대규모 훈련 세트에 접근할 수 있게 되었습니다. 트레이닝 세트가 개발/테스트 세트와는 다른 분포에서 온 것이라도, 많은 정보를 제공할 수 있기 때문에, 학습에 활용하고 싶다고 생각하고 있습니다. Cat 디텍터 예에서는 사용자가 업로드한 10,000개의 이미지를 모두 개발/테스트 세트에 넣는 대신 5,000개를 개발/테스트 세트에 넣을 수 있습니다.

사용자가 업로드한 나머지 5,000개의 예를 트레이닝 세트에 넣을 수 있습니다. 이렇게 하면 205,000개의 예시로 구성된 교육 세트에는 200,000개의 인터넷 이미지와 함께 개발/테스트 분포에서 가져온 데이터가 포함됩니다. 이 방법이 왜 도움이 되는지에 대해서는 다음 장에서 설명하겠습니다. 두 번째 예를 생각해 봅시다. 음성으로 제어되는 모바일 지도/내비게이션 앱의 거리 주소를 변환하는 음성 인식 시스템을 구축하고 있다고 가정해 보십시오. 거리 주소를 말하는 사용자의 예는 2만 개입니다.

그러나 사용자가 다른 토픽에 대해 이야기하는 기타 오디오 클립의 예도 500,000개 있습니다. 개발/테스트 세트에 대해 10,000개의 거리 주소 예제를 사용하고, 나머지 10,000개와 추가 500,000개의 예제를 교육에 사용할 수 있습니다. 개발 데이터와 테스트 데이터가 동일한 분포에서 추출되었다고 계속 가정합니다. 다만, 트레이닝이나 개발/테스트의 배포에 따라서는, 몇개의 특별한 과제가 있는 것을 이해하는 것이 중요합니다. 고양이 탐지기의 교육 세트에 사용자가 업로드한 10,000개의 이미지가 포함되어 있다고 가정합니다.

이 데이터는 별도의 개발/검정 집합과 동일한 분포에서 추출되며 사용자가 잘 수행하려는 분포를 나타냅니다. 또한 인터넷에서 20,000개의 이미지를 추가로 다운로드 받을 수 있습니다. 학습 알고리즘에 20,000+10,000=30,000개의 이미지를 모두 트레이닝 세트로 제공해야 합니까?아니면 학습 알고리즘이 편중되지 않을까 두려워서 20,000개의 인터넷 이미지를 폐기해야 합니까?

이전 세대의 학습 알고리즘(수작업으로 설계된 컴퓨터 비전 기능, 단순한 선형 분류기 등)을 사용할 경우 두 유형의 데이터를 병합하면 성능이 저하될 위험이 있습니다. 따라서 일부 엔지니어는 20,000개의 인터넷 이미지를 포함시키지 말라고 경고할 것입니다. 그러나 대규모 신경 네트워크와 같은 강력하고 유연한 학습 알고리즘의 현대 시대에 이러한 위험은 크게 감소했습니다. 숨겨진 유닛/레이어 수가 충분한 신경 네트워크를 구축할 수 있다면 20,000개의 이미지를 트레이닝 세트에 안전하게 추가할 수 있습니다. 이미지를 추가하면 퍼포먼스가 향상될 가능성이 높아집니다.

이 관찰은 두 데이터 유형에 모두 적합한 x -> y 매핑이 있다는 사실에 의존합니다. 즉, 인터넷 화상 또는 모바일 앱 화상 중 하나를 입력하고, 이미지의 출처를 몰라도 라벨을 확실하게 예측하는 시스템이 존재한다. 그것은 당신의 신경망에 고양이가 어떻게 생겼는지/안 생겼는지에 대한 더 많은 예를 제공한다. 인터넷 이미지와 사용자가 업로드한 모바일 앱 이미지가 비슷한 점이 있기 때문에 도움이 됩니다. 신경 네트워크는 인터넷 이미지에서 얻은 지식 중 일부를 모바일 앱 이미지에 적용할 수 있습니다.

신경망이 인터넷 이미지에 특화된 속성(고해상도, 이미지 프레임 방식의 다른 분포 등)을 학습하기 위해 용량의 일부를 소비하도록 강제한다. 이러한 특성이 모바일 앱 이미지와 크게 다르면 뉴럴 네트워크의 표현 능력 중 일부를 “소모”하게 됩니다. 따라서 모바일 앱 이미지 배포에서 도출된 데이터를 인식할 수 있는 용량이 적습니다. 이론적으로는 알고리즘의 퍼포먼스를 해칠 가능성이 있습니다.