본문 바로가기

데이터분석34

find( ), findAll( ) find() 와 findAll() findAll(tag, attributes, recursive, text, limit, keyword) tag, attributes .findAll("태그명", "dict형식의 속성") recursive recursive가 True이면 findAll 함수는 매개변수에 일치하는 태그를 찾아 자식, 자식의 자식까지 검색합니다. recursive가 False이면 findAll 함수는 문서의 최상위 태그만 찾습니다. 기본값은 recursive가 True입니다. text text는 태그의 속성이 아니라 텍스트 콘텐츠가 일치하는 값을 찾습니다. 예를 들면 예시 페이지에서 text가 "the prince"라는 단어가 몇번 나왔는지 확인하려면 nameList = bsObj.findAl.. 2020. 9. 8.
R. 범주형 변수간 특성요약과 시각화 범주형 변수간 분석방향성 분석대상 객체의 속성을 항목을 구별하는 방식으로 데이터를 수집 및 분석하는 범주형 변수 간에는 빈도와 비율을 활용한 교차 빈도•비율•백분율 분석을 활용해 다차원 적으로 여러 범주변수 간의 관련성(연관성)을 파악할 수 있습니다. R로 실습해보기 범주형 변수컬럼 서브데이터셋 추출 전체 데이터셋 변수 컬럼 중에서 항목을 구별해주는 역할을 하는 이항•다항 명목척도, 서열•순서척도로 측정된 범주형 변수 컬럼 서브데이터셋을 별도로 추출합니다.코드 진행은 앞에서 했던 것들과 같습니다. 1. 데이터 로드하기 2. 범주형 변수 컬럼명 확인하기 3. 범주형 변수컬럼 데이터셋 추출하기 범주형 변수간 특성 분석하기 범주형 변수인 성별(gender) 변수와 연령대(age) 변수간 관련성을 파악하기 위하.. 2020. 9. 2.
R. 연속형 변수 특성 요약과 시각화(등간형) 연속형 변수 특성 요약과 시각화 연속형 변수 컬럼 서브데이터셋 추출하기 전체 데이터셋 변수 컬럼 중에서 분석 대상 객체 속성의 양적인 크기를 파악한 등간•간격척도와 비율 척도로 측정된 연속형 변수 컬럼 서브데이터셋을 별도로 추출합니다. 먼저 연속형 변수를 꺼내오기 위해 범주형 변수컬럼명을 파악한 후 데이터를 도출하겠습니다. 1. 전체 변수 컬럼명 파악 all_names 2020. 8. 24.
R. 범주형 변수 특성 요약과 시각화(이항형, 다향형) 범주형 변수 컬럼 서브데이터셋 추출 먼저 전체 데이터셋 변수컬럼 중에서 항목을 구별해주는 역할을 하는 이항,(다항•명목), 서열형 데이터로 측정된 변수컬럼 서브데이터셋을 별도로 추출하겠습니다. 1. 데이터 불러오기 my 2020. 8. 24.
R. 데이터 시각화탐색(산점도 매트릭스, 상관관계) 전체변수간 산점도 매트릭스 데이터셋을 구성하고 있는 모든 변수컬럼 간의 상호관련성을 산점도(scatter plot) 매트릭스(matrix)를 통해서 살펴볼 수 있습니다. 산점도 매트릭스를 표현하기 위해 사용된 함수는 plot( )입니다. 먼저 산점도 매트릭스를 표현하기 전에 데이터를 불러오겠습니다. # 여행자 관련 csv 파일 my 2020. 8. 24.
R. 데이터 탐색하기 데이터셋 로딩 앞에서도 본것처럼 데이터셋 로딩하는 방법은 아래와 같습니다. 1. 기본 read함수로 로드하기 2. readr::read_delim()함수를 이용하여 로드하기 3. data.table::fread()함수를 이용하여 로드하기가 있습니다. 자세한 내용을 보고싶으면 여기를 참고하시면 됩니다. https://hyun-am-coding.tistory.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B-%EB%A1%9C%EB%94%A9%ED%95%98%EA%B8%B0-%ED%94%8C%EB%A0%88%EC%9D%B8-%ED%85%8D%EC%8A%A4%ED%8A%B8-%ED%8C%8C%EC%9D%BC 데이터셋 로딩하기 - 플레인 텍스트 파일 데이터셋 로딩하기 먼저 아래와.. 2020. 8. 21.