조직에는 텍스트 형식으로 저장된 방대한 데이터

조직에는 텍스트 형식으로 저장된 방대한 데이터가 있으며, 이러한 텍스트에서 “의미”를 추출할 수 있는 방법을 찾고 있을 것입니다. 책상 위에 쌓여 있는 파일을 상상해 보십시오. 이 파일은 말뭉치를 나타내며 각 개인은 “문서”를 파일링합니다. 이러한 파일의 텍스트 내용을 “요약”할 수 있는지 물어볼 수도 있습니다. 그렇다면 요약은 어떻게 보일 수 있습니까? 한 가지 해답은 파일 파일 전체에서 발생하는 일관성 있는 상호 관련 텍스트 컨텐츠 패턴에 광범위한 공통점을 포함해야 한다는 것입니다.

따라서 의미를 보는 한 가지 방법은 텍스트 본문의 기초가 되는 일관성 있고 축약된 “주제” 또는 “주제”의 형태입니다. 과거에 자동 분석은 주제나 주제를 직접적으로 다루지 않는 단순한 모델에 의존하여 텍스트 말뭉치의 수동 분석을 통해 의미를 도출할 수 있도록 하였습니다. 텍스트 데이터에서 일관된 “테마”를 감지하고 추출하는 접근법이 인기를 끌고 있습니다.

아래에 자세히 설명된 텍스트 말뭉치의 주제 마이닝의 기초가 됩니다. 텍스트 말뭉치 컨텍스트에서 기본 주제가 어떻게 보이거나 의미하는지 설명하기 위해 간단한 예를 들어 보겠습니다. 20개의 제품 리뷰 텍스트 코퍼스를 고려해보십시오. 말뭉치 구조에는 “가격”과 “브랜드”라는 두 가지 광범위한 주제 또는 주제가 있다고 가정합니다. 또한 각 문서가 서로 다른 비율로 이 두 주제를 혼합했다고 가정합니다. 그런 다음 “가격”에 대해 90%, “브랜드” 10%를 언급하는 문서는 “브랜드” 조건보다 “가격” 조건이 9배 더 많아야 한다고 주장할 수 있습니다. 주제 모델은 이러한 직관을 수학적으로 공식화합니다.

알고리즘은 어떤 토큰이 어떤 항목에 속하는지, 어떤 문서가 “로드”되는지(강력한 연관성을 가지는지, 어떤 항목에 대한 예는 아래 참조) 산출합니다. 이를 통해 토큰과 문서를 정렬, 정렬, 플롯, 분석 등을 할 수 있습니다. 그러면 어떻게 하면 이런 잠재적인 주제나 주제를 텍스트로 직접 발굴할 수 있을까요? 기본 개념은 잘 알려진 요인 분석 절차와 유사합니다. 전통적인 요인 분석에서 어떤 일이 일어나는지 생각해 보십시오.

R 행과 C 열이 있는 데이터 세트는 R × F 점수 행렬과 F × C 적재 행렬의 두 가지 요소로 분해됩니다(R은 관측치 수를, C는 각 관측치의 속성을, F는 데이터가 분해되는 요인 수를 나타냅니다). 그런 다음 이러한 요인에는 레이블이 지정되고 로드되는 변수의 복합 조합으로 해석됩니다. 예를 들어, 각 요인의 “부하”가 가장 높은 변수(변수 1은 양수, 변수 4는 음수 등)를 관찰하여 각 요인을 특성화할 수 있습니다. 이 값을 사용하여 이 값이 의미하는 바를 해석하고 각 요인에 유용한 레이블을 지정합니다. 이제 기존의 메트릭 변수 데이터 집합 대신 D 문서와 T 용어가 포함된 DTM(문서 용어 매트릭스) 데이터 집합이 있다면 어떻게 될까요?

일반적인 요인 대신 “주제 요인”이라는 용어를 사용합니다. 이것은 D × F 점수 행렬의 요인 문서와 F × T 적재 행렬의 요인 조건을 나타냅니다. 이 매트릭스는 무엇입니까? 텍스트 컨텍스트에서 이러한 점수 및 적재는 무엇을 의미합니까? 실전 사례를 통해 알아보겠습니다. 다음 데이터셋은 Fortune 1000대 기업의 서브셋이 제공하는 미션 스테이트먼트가 포함된 CSV(쉼표로 구분된 값) 파일입니다. 현재 작성자의 기트허브 페이지에 저장되어 있습니다. RStudio에서 다음 줄의 R 코드를 실행하여 파일을 로컬 컴퓨터에 저장할 수 있습니다.

이제 반짝이는 앱 목록(위의 코드)에서 토픽 마이닝 앱을 호출하고 앱의 입력 필드와 출력 탭을 탐색합니다. 이제 앱의 미션 스테이트먼트에 대한 저장된 .csv 파일을 읽어보십시오. 우리의 기본 텍스트 분석 앱에서 사용되는 프로세스와 마찬가지로, 이것 역시 말뭉치를 토큰화하고, 분석의 기본 단위로 TDM을 생성하고, 이에 잠재된 주제 모델을 적용합니다. 사용자(이 경우, 우리)가 말뭉치에 있다고 생각하는 최적의 주제 수를 말하도록 요구합니다. 앱의 기본값은 2이지만 수동으로 변경할 수 있습니다.