gensim lda 예제

이 자습서에서는 `20 개의 뉴스 그룹` 데이터 집합의 실제 예제를 수행 하 고 LDA를 사용 하 여 자연스럽 게 설명 된 항목을 추출 합니다. 주제 모델링은 많은 양의 텍스트에서 숨겨진 주제를 추출하는 기술입니다. 잠복 Dirichlet 할당 (LDA)는 파이썬의 Gensim 패키지에서 우수한 구현과 주제 모델링을위한 인기있는 알고리즘입니다. 그러나 문제는 명확하고 분리되고 의미 있는 주제의 좋은 품질을 추출하는 방법입니다. 이는 텍스트 전처리의 품질과 최적의 주제 수를 찾는 전략에 크게 좌우됩니다. 이 자습서는 이러한 두 가지 문제를 모두 해결하려고 시도합니다. 일부 변환을 사용하려면 초기화(=학습)해야 합니다. 예를 들어, 단어 모음 WikiCorpus를 학습 데이터로 사용하여 LDA 변환 모델을 학습해 보겠습니다. 예를 들어 여기서는 TFIDF 모델을 학습한 다음 TFIDF 위에 잠재 의미 분석(항목 모델링)을 학습합니다. LDA(잠복 Dirichlet 할당)는 토픽 모델의 예이며 문서의 텍스트를 특정 토픽으로 분류하는 데 사용됩니다. Dirichlet 분포로 모델링된 토픽 모델당 토픽 및 토픽 모델별 단어를 빌드합니다.

Gensim 개체에는 모델을 디스크에 유지하기 위한 저장/로드 메서드가 있으므로 나중에 다시 사용할 수 있습니다(또는 네트워크를 통해 다른 컴퓨터로 전송됨) 파이썬 3: https://github.com/EricSchles/sklearn_gensim_example/blob/master/example.py 예를 들어, 위의 (0, 1) 의미, 단어 ID 0 첫 번째 문서에서 한 번 발생 합니다. 마찬가지로 단어 ID 1은 두 번 발생합니다. 우리는 주제 모델링이 무엇을 할 수 있는지 이해하는 것으로 시작했습니다. 젠심의 LDA를 사용하여 기본 토픽 모델을 구축하고 pyLDAvis를 사용하여 주제를 시각화했습니다. 그런 다음 망치의 LDA 구현을 구축했습니다. 일관성 점수를 사용하여 최적의 주제 수를 찾는 방법과 최적의 모델을 선택하는 방법에 대한 논리적 이해를 실현하는 방법을 알아보았습니다. 예를 들어, 궁극적인 목표는 의미상 유사한 문서를 검색하는 것입니다 때, 우리는 수동으로 유사한 문서의 집합에 태그를 지정한 다음 주어진 의미 체계 모델이 유사한 문서를 함께 매핑얼마나 잘 볼 수 있습니다. Gensim의 구문 모델은 빅램, 트라이그램, 쿼드그램 등을 구축하고 구현할 수 있습니다. 구에 대한 두 가지 중요한 인수는 min_count 및 임계값입니다.

이러한 매개 변수의 값이 높을수록 단어가 bigrams에 결합되기가 더 어려워집니다. 자연어 처리의 주요 응용 프로그램 중 하나는 사람들이 많은 양의 텍스트에서 논의하는 주제를 자동으로 추출하는 것입니다. 큰 텍스트의 몇 가지 예는 소셜 미디어에서 피드 수 있습니다., 호텔의 고객 리뷰, 영화, 등, 사용자 피드백, 뉴스 기사, 고객 불만의 이메일 등. 또한 스파스 출력 벡터를 저장하려면 약 35GB의 여유 디스크 공간이 필요합니다. bzip2 (~13GB까지)와 같은 이러한 파일을 즉시 압축하는 것이 좋습니다. Gensim은 압축된 파일로 직접 작업할 수 있으므로 디스크 공간을 절약할 수 있습니다. Gensim은 젠심 자체 내에서 말렛의 LDA를 구현하는 래퍼를 제공합니다. zipfile을 다운로드하고 압축을 풀고 압축해제된 디렉토리에서 mallet에 대한 경로를 gensim.models.wrappers.LdaMallet으로 제공하기만 하면 됩니다.

    Outros serviços