본문 바로가기

데이터3

find( ), findAll( ) find() 와 findAll() findAll(tag, attributes, recursive, text, limit, keyword) tag, attributes .findAll("태그명", "dict형식의 속성") recursive recursive가 True이면 findAll 함수는 매개변수에 일치하는 태그를 찾아 자식, 자식의 자식까지 검색합니다. recursive가 False이면 findAll 함수는 문서의 최상위 태그만 찾습니다. 기본값은 recursive가 True입니다. text text는 태그의 속성이 아니라 텍스트 콘텐츠가 일치하는 값을 찾습니다. 예를 들면 예시 페이지에서 text가 "the prince"라는 단어가 몇번 나왔는지 확인하려면 nameList = bsObj.findAl.. 2020. 9. 8.
R. 연속형 변수 특성 요약과 시각화(비율형) 비율형 척도 변수컬럼 특성 파악하기 비율형 척도 (ratio) 중에서 지출경비(expense)변수를 선정하여 지출경비 수치들이 가진 중심성, 변동성, 정규성 분포 특성을 파악합니다. 먼저 expense 컬럼을 뽑아내서 어떤 데이터인지 파악하겠습니다. library(Hmisc) Hmisc::describe(cnt$expense) 이제 산술평균, 중앙값, 최빈값을 파악하겠습니다. 1. 산술평균 mean(cnt$expense) mean(cnt$expense, na.rm = TRUE) mean(cnt$expense, na.rm = TRUE, trim = 0.3) 여기서 trim = 0.3을 적용한 mean을 보면 다른 값들에 비해서 현저히 낮은 것을 확인할 수가 있습니다. 이것은 평균에 비해서 극값이 있다는 사.. 2020. 8. 24.
R. 범주형 변수 특성 요약과 시각화(이항형, 다향형) 범주형 변수 컬럼 서브데이터셋 추출 먼저 전체 데이터셋 변수컬럼 중에서 항목을 구별해주는 역할을 하는 이항,(다항•명목), 서열형 데이터로 측정된 변수컬럼 서브데이터셋을 별도로 추출하겠습니다. 1. 데이터 불러오기 my 2020. 8. 24.