머신러닝딥러닝/머신러닝1 [Python] Count Vectorizer & TFIDFvectorizer 자연어처리 - 자연어 벡터로 바꾸기 scikit-learn library를 이용하여 자연어 처리를 할 수 있는 대표적인 class인 Count Vectorizer와 TFIDFvectorizer를 알아보고자 한다. scikit-learn의 서브패키지 중 feature_extraction과 feature_extraction.text라는 문서 전처리용 클래스를 제공하고 있다. DicVectorizer 단어의 수를 세어놓은 사전에서 BOW 인코딩 벡터를 만든다 CountVectorizer 모든 문서의 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩 벡터를 만든다 TFIDFVectorizer CountVectorizer와 비슷하나 TF-IDF 방식으로 단어의 가중치를 조절하여, 문서 구별능력이 뛰어난 단어에게 큰 가중치를 문서구별능력이 떨.. 2022. 11. 30. 이전 1 다음 반응형