전체 글 52

스마트폰 센서기반 데이터를 활용한 행동 인식

상위 5개 변수 해석  tGravityAcc mean() X - 시간 영역에서 측정된 X축 방향 중력 가속도의 평균 값     그래프 해석 주요 특징:LAYING이 가장 분포가 좁고 밀도가 높은 형태를 보이며, 이는 누워 있을 때 중력 가속도가 거의 일정하다는 것을 나타냅니다.WALKING 관련 활동은 다양한 값에 걸쳐 나타나는데, 이는 몸을 움직이며 방향이 자주 바뀌기 때문입니다.종합적 해석정적 활동 (STANDING, LAYING, SITTING): X축 방향의 중력 가속도 평균 값이 특정 범위에 집중되어 있으며, 값이 거의 변하지 않는다는 것을 알 수 있습니다.동적 활동 (WALKING, WALKING_DOWNSTAIRS, WALKING_UPSTAIRS): 중력 가속도 평균 값이 더 다양한 범위에 ..

카테고리 없음 2024.10.23

이상탐지

머신러닝에서 이상탐지란?데이터에서 비정상적인 패턴이나 이상치를 찾아내는 기술을 말한다 학습방법은 비지도학습에 가까우나, 평가할때 정상과 비정상을 알아야함으로 label 필요 이상탐지는 보통 성능이 좋지 않다...  이상탐지 알고리즘중 Isolation Forest 를 소개해 보자면 ..!!1. Train Set으로 부터, 데이터를 샘플링한다.2. Isolation Tree를 만든다▪ 랜덤하게 feature를 선정하고, 랜덤하게 split 기준을 삼아 Tree를 생성.▪ 정상 데이터일 수록 Isolation 시키려면 많은 Split이 필요 ➔ Depth가 길어짐.▪ 비정상 데이터일 수록(정상으로 부터 떨어져 있을 수록) ➔ Depth가 짧아짐.  더 쉽게 설명하자면, 선택한 샘플 데이터에서 무작위로 **특..

카테고리 없음 2024.10.23

머신러닝 비지도학습

지도 학습 vs 준지도 학습 vs 비지도 학습지도 학습타겟 데이터 (label)가 있는 경우예시: A와 B 명확히 나누기 준지도 학습일부 데이터만 타겟(label)이 존재예시: 정상으로 분류된 데이터를 기준으로 이상치를 구분 비지도 학습타겟(label) 없이 데이터의 유사성을 기준으로 패턴을 찾음예시: 유사한 것들끼리 군집화  비지도 학습 특징학습시 x만 사용x안에서 패턴 인식 문제 후속 작업 필요(비지도 학습으로 끝나지 않는다)차원축소 - 고차원 데이터를 축소하여 새로운 feature를 생성 -> 시각화, 지도학습 연계클러스터링 - 고객별 군집 생성 -> 고객 집단의 공통 특성 도출을 위한 추가 분석이상탐지 - 정상 데이터 범위 지정 -> 범위 밖 데이터를 이상치로 변경 차원축소 변수가 너무 많아서 차..

카테고리 없음 2024.10.22

머신러닝 앙상블 알고리즘

앙상블 : 전체적인 어울림이나 통일을 뜻하는 프랑스어이다.  머신러닝에서의 앙상블여러 개의 모델을 결합하여 단일 모델보다 더 나은 성능을 얻기 위한 방법다양한 모델의 예측을 결합해서 성능을 향상시키고, 각 모델의 약점을 보완한다캐글(Kaggle)과 같은 많은 기계학습 경쟁에서 상위순위이다 앙상블 방법병렬 앙상블 - 여러 모델이 독립적으로 학습됨. 예) 보팅, 배깅순차 앙상블 - 모델들이 순차적으로 학습하며, 이전 모델의 오류를 보완하는 방식. 예) 부스팅스태킹 - 개별 모델의 예측 결과를 다시 최종 모델에 입력으로 제공하여 최종 예측을 내리는 방법  1. 앙상블 알고리즘 종류1.1 배깅(Bagging, Bootstrap Aggregating)여러 모델을 독립적으로 학습한 후 예측 결과를 결합함.데이터의 ..

카테고리 없음 2024.10.19

머신러닝 알고리즘 정리 2

Support Vector Machine (SVM) 개념분류를 위한 기준선, 즉 결정 경계선을 찾는 알고리즘이다.  성능을 위해 정규화 작업이 필요하다.분류, 회귀에 모두 사용가능하다 용어  결정 경계(Decision Boundary)사진상 빨간선으로, 서로다른 분륫값을 결정하는 경계이다 벡터사진상 점들로, 데이터를 나타낸다 서포트 벡터결정 경계선과 가장 가까운 데이터 포인트 마진서포트 벡터와 결정 경계 사이의 거리를 말한다.마진이 클수록 새로운 데이터에 대해 안정적으로 분류할 가능성이 높다  비용 (C) 학습 시 에러가 적은 모델보다 운영시 에러가 적은 모델이 더 좋은 모델이다   SVM은 약간의 오류를 허용하기 위해서 비용 변수를 사용한다 비용이 너무 크면 과대적합이 되어서 운영시 에러가 많은 모델이..

카테고리 없음 2024.10.18

머신러닝 알고리즘 정리 1 (초간단 정리)

1. 선형 회귀 (Linear Regression)목적: 연속적인 수치 예측을 위해 사용됩니다.작동 원리: 데이터 포인트 사이의 관계를 직선으로 모델링하며, 입력 변수와 출력 변수 사이의 선형 관계를 찾습니다.예시: 집의 크기와 가격 사이의 관계를 예측할 때 사용.2. K-최근접 이웃 (K-Nearest Neighbors, K-NN)목적: 분류와 회귀에 모두 사용됩니다.작동 원리: 새로운 데이터 포인트가 들어오면 가장 가까운 K개의 이웃 데이터 포인트의 결과를 참고하여 예측합니다.예시: 새 사용자가 좋아할 만한 영화를 추천하기 위해 비슷한 취향을 가진 사용자의 데이터를 사용.3. 의사결정 나무 (Decision Tree)목적: 분류와 회귀 문제를 해결하는 데 사용됩니다.작동 원리: 데이터의 특징들을 기준..

카테고리 없음 2024.10.17

머신러닝 성능 평가 개념정리

성능평가는 기본적으로 회귀 모델과 분석 모델로 분류해서 평가한다. 이 두 모델은 목표변수 (target)의 유형에 따라 다르다. 주요 차이점 요약:구분회귀 모델분류 모델출력 값연속적인 값 (예: 실수)이산적인 값 (예: 클래스/카테고리)문제 유형수치 예측 문제 (가격, 수량 등)카테고리 예측 문제 (스팸/비스팸, 질병 유무 등)예시주택 가격 예측, 온도 예측스팸 메일 분류, 암 진단평가 지표MSE, RMSE, MAE, R²정확도, 정밀도, 재현율, F1 Score알고리즘선형 회귀, 다항 회귀, 랜덤 포레스트 회귀로지스틱 회귀, 의사결정나무, 랜덤 포레스트 분류   회귀 모델 성능 평가  예측 값과 실제 값 간의 차이를 측정하여 모델의 정확도를 평가합니다. 여기 나오는 모든 값들은 작을수록 모델의 성능이 ..

카테고리 없음 2024.10.16

머신러닝 기초 개념과 무작정 따라해보기(지도학습편)

오늘은 전처리가 완료된 데이터를 이용해서 머신러닝을 무작정해보겟다...  머신러닝이란?머신러닝(Machine Learning)은 컴퓨터가 명시적으로 프로그래밍되지 않고도 데이터를 통해 학습할 수 있게 하는 인공지능(AI)의 한 분야입니다. 일반적으로 머신러닝은 대량의 데이터를 분석하고 그 안에서 패턴을 찾아내며, 이를 통해 새로운 데이터에 대해 예측하거나 분류 등의 작업을 수행할 수 있습니다.머신러닝의 주요 유형은 다음과 같습니다: [학습 방법에 따른 분류]지도학습(Supervised Learning): 입력데이터와 해당 데이터의 정답이 주어진 상태에서, 모델이 이를 학습하여 새로운 데이터의 결과를 정확하게 예측하도록 만드는 학습 방식비지도학습(Unsupervised Learning): 정답이 없는 데이..

카테고리 없음 2024.10.15

Power Bi 사용해보기

Power Bi 란?Power BI는 Microsoft에서 제공하는 데이터 분석 및 시각화 도구입니다. 다양한 데이터 원본에서 데이터를 수집, 처리, 변환한 후 이를 기반으로 대시보드와 보고서를 생성하여 데이터를 시각적으로 표현할 수 있게 도와줍니다. - 이건 지피티의 설명이다 코드를 사용하지 않고도 csv, 엑셀파일들을 분석하고 시각화 할 수 있다 +_+!!  Power Bi의 사용법을 간단하게 정리하자면  여기에서 가져오고싶은 데이터를 선택해서 가져온다.    이게 기본적인 화면이다 1. 홈 메뉴 (상단 바)데이터 가져오기: 여러 소스에서 데이터를 Power BI로 가져올 수 있습니다. 예: Excel 파일, SQL Server, Dataverse 등.데이터 변환: 가져온 데이터를 편집할 수 있는 P..

카테고리 없음 2024.10.12

스트림릿

스트림릿 이란?스트림릿(Streamlit)은 Python을 사용해 간단하고 빠르게 데이터 애플리케이션을 만들 수 있는 오픈소스 프레임워크입니다. 주로 데이터 분석가, 머신러닝 엔지니어, 그리고 개발자들이 데이터를 시각화하고 대화형 웹 애플리케이션을 구축하는 데 사용됩니다. 스트림릿의 가장 큰 장점 중 하나는 복잡한 HTML, CSS, JavaScript 코드를 작성하지 않고도, Python 스크립트만으로 대화형 대시보드를 만들 수 있다는 점입니다.주요 특징:쉽고 빠른 개발: 스트림릿을 사용하면 Python 코드를 작성하면서 바로 웹 애플리케이션을 만들 수 있습니다. 데이터 분석 또는 머신러닝 모델을 배포할 때 매우 유용합니다.대화형 위젯: 버튼, 슬라이더, 체크박스, 입력 폼 등을 사용해 사용자가 직접 ..

카테고리 없음 2024.10.11