분류 전체보기 7

추천시스템

콘텐츠 기반 필터링카카오 AI 추천 : 카카오의 콘텐츠 기반 필터링사용자들의 아이템(콘텐츠 또는 상품) 소비 패턴을 살펴보면> 기존에 유사한 아이템을 소비하는 경우를 쉽게 볼 수 있다.> 이런 소비 패턴이 뚜렷한 경우, 아이템의 정보를 활용해 추천하는> 콘텐츠 기반 필터링(Content-based filtering) 방식이 효과적 콘텐츠 기반 필터링은 위의 그림에 표현된 것과 같이, 사용자가 소비한 아이템에 대해 아이템의 내용이 비슷하거나 관계가 있는 다른 아이템을 추천하는 방법이다.아이템의 내용은 아이템을 표현할 수 있는 데이터를 지칭하는데, 카테고리, 이름과 같은 텍스트 데이터, 이미지 데이터를 주로 사용한다.다른 사용자의 아이템 소비 이력을 활용하는 협업 필터링(Collaborative filter..

카테고리 없음 2024.11.06

파이썬 데이터분석 실무 테크닉 100 10장

10장 앙케트 분석을 위한 자연어 처리 테크닉 1091. 데이터 불러서 파악해 보자 import pandas as pdsurvey = pd.read_csv("survey.csv")print(len(survey))survey.head() 이처럼 코드를 실행하면 datetime, comment(의견), satisfaction(만족도)를 확인할 수 있다. 결측치 확인survey.isna().sum()아래의 결과가 결측치이다.그래서 설문조사의 경우는 결측치가 많은 경우가 있기에 반드시 결측치를 확인해야 한다.86개중 2가지가 결측치인 경우는 제거해준다. survey = survey.dropna()survey.isna().sum()제거가 완료된 것을 볼 수 있다. 92. 불필요한 문자를 제거하자.언어는 사람에 따..

카테고리 없음 2024.11.02

통계101_11장

11장 베이즈 통계11.1 베이즈 통계의 사고방식이전에 본 통계 방법은 빈도주의 통계(frequentist statistics)라 부르는 흐름으로 분류된다.이번 장에서는 베이즈 통계(Bayesian statistics)라 부르는 흐름. 2가지 통계의 차이확률로 다루는 방식이나 수리적 가정이다. 베이즈 통계의 중요성컴퓨터를 사용함으로써 복잡한 통계 모형도 추정할 수 있기에 중요도는 더욱 높아짐. 불확실성빈도주의 흐름 : 모집단에서 표본을 추출하는 경우이런 불확실성에 대해 고정된 파라미터 θ를 가진 확률분포(모집단)을 상정하여, 데이터 x가 나타날 확률 p(x| θ)로 표현함.활용 예시가설검정 : 극단적인 값이 나타날 확률최대가능도 방법 : 고정된 파라미터에서 확률을 최대화하는 방법무한한 반복 실행== 객관..

카테고리 없음 2024.11.02

통계101_10장

10장 인과와 상관10.1 인과와 상관인과 그래프 : 원인과 결과를 원과 화살표로 나타낸 것인과관계 네트워크 : 인과 그래프의 모음 인과관계의 가치목적을 이루기 위한 구조(메커니즘)에 관한 지식제공인과관계의 이해 == 세상의 구조를 이해인과관계의 규명은 실험 수행, 통계분석이 필요한 이유이다. 변수 사이의 관계인과관계 : 원인과 결과의 관계 - 원인->결과상관관계 : 데이터에서 보이는 관련성(association)을 말한다.상관에는 한쪽이 커지면 다른 쪽이 커지는(작아지는) 관계인  선형이 대표적이다.일반화된 버전 : 어떤 특정한 조합이 일어나기 쉬우면 : 독립이 아님을 뜻한다.상관과 인과의 차이관찰 연구를 통해 얻은 데이터를 통해 얻을 수 있는 관계성은 상관.상관을 인과로 보기 힘든 이유중첩요인(con..

카테고리 없음 2024.11.02

파이썬 데이터분석 실무 테크닉 100 9장

9장 : 잠재고객을 파악하기 위한 이미지 인식 테크닉 10영상을 통한 고객의 모습을 통해 상품 선택과 이어주기 위해선 고성능, 고가의 이미지 인식 기술이 필요하지만, 이는 '어느 정도' 성능에도 만족할 수 있다면 무료 라이브러리를 이용해 충분히 실현할 수 있다.카메라에서 얻은 이미지를 이용해 인식과 얻는 과정을 배움으로써 이미지 인식을 현장에서 응용하는 흐름을 파악한다. 동영상 : mov folder, 이미지 : img folder에 저장돼 있다. 81. 이미지 데이터를 불러오기 import cv2img = cv2.imread("img/img01.jpg")height, width = img.shape[:2]print("이미지 가로: " + str(width))print("이미지 세로: " + str(he..

카테고리 없음 2024.11.02

통계 101_ 4,5장

4.1 추론통계를 배우기 전에전수조사와 표본조사전수조사 :모든 요소를 조사하는 방법이다.기술통계 방법을 사용하여 모든 요소로부터 알고자 하는 성질을 계산하고 평가함으로써 알아낸다.표본조사모집단의 일부인 표본으로 모집단의 성질을 추정하는 방법이다.추정통계 방법을 사용하여 모집단을 추정하는 분석에 기반을 두고 있다.힘든 부분이다.데이터를 얻는다는 것데이터(표본)을 얻는다는 것의 의미?모집단에 포함된 전체 값으로 구성된 분포에서 일부를 추출하는 것모집단분포 : 엄청난 개수의 요소를 모아 히스토그램을 그리는 모습/ 모집단을 나타내는 분포 모집단 관련 용어모집단분포가 양적 변수의 분포인 경우평균이나 분산을 정의할 수 있는데, 이를 모평균, 모분산이라 한다.모집단분포를 특징 짓는 양 : 모수 또는 파라미터모수의 의..

카테고리 없음 2024.09.24

데이터 분석 실무 테크닉_ 2편

3장 고객의 전체 모습을 파악하는 테크닉 10intro데이터 분석의 목적 : 현재의 데이터를 통해 미래를 예측하는 것이다. 이는 현황을 분석하여 문제점을 파악하고 더 좋은 미래로 바꾸기 위해 최적의 정책을 실시할 수 있게 하는 것이다. 데이터 가공의 필요성- 적절한 가공과 가시화만으로도 많은 정보를 얻을 수 있다. 3장에서 배울 내용- 머신러닝을 위한 데이터 가공 기술을 배우면서 고객 행동을 분석하고 파악하는 노하우 문제 상황최근 1년간 고객 수가 늘지 않는 문제이다. 기존의 고객과 특성과 이용하는 빈도가 낮은 고객에 대한 정보도 알고 싶다. 전제 조건고객의 종류1. 종일 회원낮에만 이용하는 주간 회원야간회원비정기 회원, 입회비에선 행사로 들어온 회원취급할 데이터No.파일 이름개요1use_log.csv센..

카테고리 없음 2024.09.22