| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
- SQL
- 잠재요소모델
- 사이킷런
- Python
- Key 종류
- CREATETABLE
- knn_classify
- Hyperlink Graphs
- 알고리즘
- 파이썬
- latent factor
- 무결성유지메커니즘
- 무결성
- SQLDDL
- 키 종류
- 세대별가비지컬렉터
- 컨테이너객체
- 문자열
- 힙
- ALTERTABLE
- sklearn
- 무결성유지
- latent factor model
- 백준
- 붓꽃데이터셋
- RENAMETABLE
- TDD
- 클린코드
- DROPTABLE
- 주성분 찾기
- Today
- Total
목록Data Science (6)
DonHurry
모듈 불러오기 사용할 모듈을 import 합니다. import matplotlib.pyplot as plt import numpy as np import requests 데이터 불러오기 본 실습에서는 하이퍼링크 그래프 데이터를 requests를 활용하여 불러오겠습니다. example_index는 노드 정보이고, example_arc는 엣지 정보입니다. with open("example_index", "wb") as f: r = requests.get("http://webdatacommons.org/hyperlinkgraph/data/example_index") f.write(r.content) with open("example_arcs", "wb") as f: r = requests.get("http:/..
들어가기에 앞서.. PCA를 이해하기 위해서는 선형대수학 개념이 필수적입니다. 본 실습에서 흐름 자체를 따라갈 수는 있어도 완전히 이해하기 위해서는 고윳값, 고유벡터, 내적, 직교 등의 개념을 숙지해야합니다. 아래 코드를 진행하다가 이해가지 않는 점이 있다면 따로 공부하는 것을 추천드립니다. 바로 아래 링크에 설명이 아주 잘되어 있습니다. 추천드려요! 주성분 분석(PCA) - 공돌이의 수학정리노트 angeloyeo.github.io 데이터 준비 실습에 사용할 데이터입니다. 머신러닝 분야에서 매우 자주 사용되는 붓꽃(iris) 데이터셋입니다. UCI Machine Learning Repository: Iris Data Set Data Set Characteristics: Multivariate Number..
데이터 준비 우선 오늘 실습에 사용할 데이터입니다. 머신러닝 분야에서 매우 자주 사용되는 붓꽃(iris) 데이터셋입니다. UCI Machine Learning Repository: Iris Data Set Data Set Characteristics: Multivariate Number of Instances: 150 Area: Life Attribute Characteristics: Real Number of Attributes: 4 Date Donated 1988-07-01 Associated Tasks: Classification Missing Values? No Number of Web Hits: 5048222 Source: Creator: archive.ics.uci.edu 모듈 불러오기 사용할..
본 포스트에서는 K-Means를 활용한 클러스터링을 진행해보도록 하겠습니다. 기본적으로 클러스터 분석이란, 다차원 공간에서 여러 개의 점들이 존재할 때 서로 가까이 있는 점들을 서로 연관시키는 문제입니다. 단순히 2차원 좌표의 점이 아닌, 다차원 공간으로 확장이 가능하기 때문에 인물 사진 분류, 스팸 메일 분류 등 다양한 task에 활용이 가능합니다. 클러스터링에는 매우 다양한 방법들이 있는데, 그중 K-Means Clustering은 반복적인 연산을 통해 데이터를 k개의 클러스터로 분할하는 알고리즘입니다. 크게 다음과 같은 4가지 순서를 따릅니다. 1. 임의로 k개의 중심점(centroid)을 생성 2. 각각의 점을 가장 가까운 중심점의 클러스터에 포함 3. 각 클러스터에 포함된 점들을 평균내어 새로운..
데이터 준비 우선 오늘 실습에 사용할 데이터입니다. 영화 평점 데이터셋으로, 아래 링크에서 다운 받으실 수 있습니다. 데이터의 크기가 다양하게 존재하는데, 오늘 사용할 데이터셋 크기는 100K로 작은 데이터를 활용하겠습니다. MovieLens GroupLens Research has collected and made available rating data sets from the MovieLens web site ( The data sets were collected over various periods of time, depending on the size of the set. … grouplens.org Colab에서 구글 드라이브 연결하기 코랩 환경에서 실습을 진행할 때, 구글 드라이브에서 데이터를..
본 포스트에서는 Pytorch와 Scikit-learn을 통해 선형 회귀 (Linear Regression) 분석을 수행해보겠습니다. 누구나 쉽게 따라할 수 있도록 간단하게 진행됩니다. 학습 데이터 생성 우선 간단한 학습 데이터를 생성해줍니다. 이때 x 데이터에 대한 y 값은 다음과 같습니다. import torch x = torch.tensor([[1, 2], [3, 2], [3, 7], [1, 1], [1, 0]], dtype=torch.float) y = torch.tensor([[4], [8], [23], [1], [-2]], dtype=torch.float) W, b 초기화 다음으로 가중치(weight)와 편향(bias)를 초기화시켜줍니다. 이때 학습률(learning rate)는 임의의 값으로..