본문 바로가기

Python20

[Python] Count Vectorizer & TFIDFvectorizer 자연어처리 - 자연어 벡터로 바꾸기 scikit-learn library를 이용하여 자연어 처리를 할 수 있는 대표적인 class인 Count Vectorizer와 TFIDFvectorizer를 알아보고자 한다. scikit-learn의 서브패키지 중 feature_extraction과 feature_extraction.text라는 문서 전처리용 클래스를 제공하고 있다. DicVectorizer 단어의 수를 세어놓은 사전에서 BOW 인코딩 벡터를 만든다 CountVectorizer 모든 문서의 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩 벡터를 만든다 TFIDFVectorizer CountVectorizer와 비슷하나 TF-IDF 방식으로 단어의 가중치를 조절하여, 문서 구별능력이 뛰어난 단어에게 큰 가중치를 문서구별능력이 떨.. 2022. 11. 30.

코사인 유사도(Cosine Similarity)vs 유클라디안 유사도(Euclidean Similarity)vs 자카드 유사도(Jaccard Similarity) 유사도란? Similairy 유사도란 상품 A와 상품 B라는 2개의 상품이 있을 때, 2가지 상품이 서로 얼마나 유사한지를 숫자로 표현한 값을 말한다. 유사도 측정방법에는 유클라디안 유사도(Euclidean Similarity), 코사인유사도(Cosine Similarity), 자카드 유사도(Jaccard Similarity), 맨하튼 거리(Manhattan distance), 피어슨 상관계수(Pearson Correlation Coefficient) 등 여러방법이 있다. 이번 포스팅에서는 코사인 유사도(Cosine Similarity), 유클라디안 유사도(Euclidean Similarity), 자카드 유사도(Jaccard Similarity)를 알아보고자 한다. 자카드 유사도(Jaccard Simil.. 2022. 11. 28.

이전 1 2 3 다음

티스토리툴바