나이브 베이즈 r 예제

# 만들기 TERM 문서 매트릭스 트레인 매트릭스 <- t (TermDocumentMatrix (traincorpus)) 모델 <- naiveBayes (as.matrix (trainmatrix), dataText$카테고리, 유형 ="원시", laplace=1, useKernel=FALSE) 모델 인쇄 (모델) col1 <-c() 인덱스 <- 1 결과 <- for (testDataTokens에서 값 토큰) { col1[1] <- valueToken dataTest <- data.frame ("col1"=col1) 테스트 벡터 <-벡터(dataTest) 테스트 소스 <-VectorSource(테스트 벡터) testcorpus <-tm_map(테스트코프) stripWhitespace) testcorpus <- tm_map (testcorpus, tolower) testcorpus <- tm_map (testcorpus, removewords("영어")) testcorpus<- tm_map (testcorpus, removePunctuation) testcorpus <-tm_map (testcorpus, PlainTextDocument) testmatrix- t(TermDocumentMatrix(testcorpus)) 인쇄(testmatrix)의 인쇄(testmatrix) 인쇄(testToken) 결과<-predict(모델, as.matrix(테스트매트릭스), type="raw",laplace=1) 인쇄(클래스(결과)) 인쇄(typeof(결과)) 인쇄(결과) 결과적으로 순진한 베이즈 분류기는 계산의 배율을 조정할 수 있도록 단순화 된 가정 (따라서 이름)을 만듭니다. 순진한 Bayes에서는 응답 값을 감안할 때 예측 변수가 서로 조건부로 독립적이라고 가정합니다. 이것은 매우 강력한 가정입니다. 우리는 우리의 감소 데이터가 우리가 강하게 상관 변수에 몇 가지 적당히 가지고 있기 때문에 이것을 위반하는 것을 빨리 볼 수 있습니다. 베이즈 정리에 의해, 나는이 게시물의 길이에 설명 한, 이로 다시 캐스팅 할 수 있습니다, […] 예측 분석의 기술은 확률 또는 통계 이론에 자신의 기원을 가지고 (예를 들어, Naïve 베이즈에 내 게시물을 참조하십시오). 이 게시물에서 나는 더 평범한 기원을 가지고 하나를 살펴 보겠습니다 : 방법 […] 연속/숫자 변수의 경우 조건부 확률 테이블 대신 naiveBayes 함수는 평균 및 표준 편차 테이블을 반환합니다(해당 순서). 두 모델의 조건부 확률이 이제 다르다는 것을 알 수 있습니다. 라플라스 스무딩 값이 클수록 모델을 동일하게 만듭니다. naiveBayes 모델 개체의 구조에서 이러한 조건부 확률 테이블에 대해 자세히 설명합니다.

naiveBayes 함수는 데이터 프레임 또는 숫자 행렬에서 숫자 또는 요인 변수를 취합니다. 단일 벡터는 입력 데이터에 대해 작동하지 않지만 종속 변수(Y)에 대해 작동한다는 점에 유의해야 합니다. 따라서 우리는 Naive Bayes 분류기(Naive Bayes 분류기)를 사용하여 예측 모델을 만들었습니다. […] 우리가 볼 수 있듯이, 순진한 베이즈 알고리즘은 복잡한 데이터 세트를 상대적으로 적은 예측 변수로 나타낼 수 있게 합니다. 또한 다양한 응용 분야에서 잘 수행되며, 다양한 대상 레벨의 상대적 빈도와 기능 집합을 기반으로 가장 가능성이 높은 목표 레벨을 예측하는 직관적인 매력을 가지고 있습니다. 생산 작업의 경우, e1071 패키지는 naiveBayes() 기능을 제공합니다: 여기에서 사용의 좋은 개요(알고리즘 뒤에 있는 이론에 대한 자세한 내용)를 찾을 수 있습니다. […] […] 그의 여덟 늦은 블로그, 칼리쉬 아와티는 철저하게 때문에 데이터 준비에 대한 세부 사항뿐만 아니라 볼 가치가 네이브 베이즈를 사용하여 분류 예를 개발하고 […] 이제 Naive Bayes 기능을 보유한 e1071 패키지를 로드할 차례입니다. 이것은 R. Naive Bayes 예제에서 제공하는 내장 함수입니다 – R에서 순진한 베이즈 – Edureka 예를 들어, 우리는 감소의 정확한 후방 확률에 대해 걱정하지 않을 수 있습니다, 우리는 단지 주어진 관찰에 대해 알고 싶어, 더 큰 감소의 후방 확률입니다 하지 않는 것보다. 가정을 위반하는 경우에도 레코드성향의 순위 순서는 일반적으로 유지됩니다. 따라서 순진한 베이즈는 종종 놀라울 정도로 정확한 알고리즘입니다.

그러나 평균적으로 고급 트리 기반 방법(임의 포리스트 및 그라데이션 증폭 기계)의 정확도와 경쟁할 수는 없지만 툴킷에서 사용할 만한 가치가 있습니다.