#T-검정 :두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법 R에 내장된 t.test()를 이용 #유의확률: 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률을 의미 p-value가 0.05 미만이면 '집단 간 차이가 통계적으로 유의하다'고 볼수있음. 분산 : 값이 퍼져 있는 정도 예제) 결과) p-value=0.2283 이므로 0.05보다 크다. 이는 실제로는 차이가 없는데 우연에 의해 이런 차이가 관찰될 확률이 28.75%라는 뜻이다. 따라서 통계적으로 유의하지 않다. #상관분석 : 두 연속 변수가 서로 관련이 있는지 검정하는 통계 분석 기법
인공지능 교육/R
stringr 패키지 str_replace_all() : 문장에 들어 있는 문자를 수정 ex) txt
데이터 전처리 작업에 가장 많이 사용되는 패키지 dplyr dplyr로드 library(dplyr) dplyr패키지는 %>%기호를 이용해 함수들을 나열하는 방식으로 코드를 작성 => 단축키 Shift+Ctrl+M ex) exam %>% filter(class == 2 | class==3) 행추출 filter() %in% :변수의 값이 지정한 조건 목록에 해당하는지 확인 ex) exam %>% filter(class %in% c(1,3,5)) # 1,3,5반에 해당하면 추출 mutate() 파생변수 추가 ex) mutate(total = math + english + science ) arrange() 순서대로 정렬 ex) arrange(math) ,arrange(desc(math)) bind_rows()..
그래프 :벡터를 x,y축에 뿌려줌 , 메모리에 표를 만듦 식별자는 소문자로 만드는것을 권장 =>대문자일 경우 함수일수가 있음 ex) math 어느정도의 데이터가 쌓이면 R에서 처리를못하기에 하둡을 붙여야함 엑셀파일 : 하단에 시트탭이있음 csv : 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일 데이터 프레임 : 시각화 하기 전단계 데이터 프레임 생성 :data.frame(a,b) 데이터 프레임을 만들땐 행의 갯수가 같아야함 str() :데이터셋의 구조 확인 dir() 현재 위치에서 사용 가능한 파일 R은 엑셀에서 파일을 불러왔을때 첫행을 변수명으로 인식함 이것을 방지하기 위해 col_names=F을 사용한다 여기서 논리형 벡터는 반드시 대문자 TRUE 또는 FALSE로 입력해야한다. ..
R은 대소문자를 구별함 R -> R Gui -> R Studio R 스튜디오를 사용하려면 R이 먼저 설치되어 있어야 함 RStudio 파일 뉴파일 스크립트 파일을 생성한후 코드를 적고 블록을잡고 Ctrl+Enter 하면 콘솔창으로 이동해서 실행됨. (스크립트와 콘솔창은 상관이 없음) Ctrl+Shift+번호 (1번 누를시 스크립트창 확대) 프로젝트 -> 소스코드,이미지,문서,외부프로그램등을 효율적으로 관리 프로젝트 이름과 폴더 경로에 한글이 들어가면 오류가 발생 class(변수) numeric같은 타입을 설명 typeof(변수) => 클래스보다 더 상세한 타입을 설명 dir() => 작업 디렉토리 안의 내용물 목록 ls() =>현재 저장되어 있는 변수들을 모두 출력 getwd() =>현재 작업공간의 경로..