상세 컨텐츠

본문 제목

MNIST

연구실

by myeongjaechoi 2024. 1. 25. 19:31

본문

이번 장에서는, 고등학생과 미국 인구조사국 직원들이 손으로 70,000개의 작은 숫자 이미지를 모은 MNIST 데이터셋을 사용하여, 공부해보겠다.

MNIST의 데이터셋은 0부터 9까지 손글씨 이미지로 구성되어있다.

개개인의 필기체가 다름으로, 필체 변형이 너무 많은 문제가 있어서, 규칙을 임의로 정해서 해결하기 어려운 문제가 있다.

스팸으로 예를 들면, 대출 이라는 단어를 스팸으로 분류하고 싶다. 하지만 대출, 대%출, 대&&출 등 우리가 임의로 규칙을 정해도 피해갈 방법은 많다. 이를 해결하기 위해, 해당 레이블(정답)을 학습시키는 것을 택하였다.

코드에 들어가기 앞서, 컴퓨터는 사람 처럼 직관적으로 보는 게 아닌, 이미지 행렬로 바꿔서 본다.

컴퓨터는 오른쪽 처럼 이미지 행렬로 본다.

흑백 이미지는 행렬로 나타내고, 컬러 이미지는 3차원 텐서로 나타낸다.(컬러는 R,G,B가 들어가야 하기 때문이다.)

사이킷런에서 읽어 들인 데이터셋의 딕셔너리

data 키 : 샘플이 하나의 행, 특성이 하나의 열로 구성된 배열

target 키 : 레이블 배열을 담음

이때의 배열 형태를 살펴보겠다.

X,y 에 저장된 형태 확인하는 코드

이미지가 70,000개 있고 각 이미지에는 28 X 28 픽셀이기 때문에 28*28인 784개의 특성이 있는 걸 확인할 수 있다.

선택한 데이터의 이미지를 확인하는 코드
출력 결과값

y에 target을 저장시킨 것과 일치하는 그림인지 확인해보겠다.

잘 나오는 것을 확인할 수 있다.

교재 : 밑바닥부터 시작하는 딥러닝 (저자 : 사이토 고키 / 번역 : 이복연 / 출판사 : 한빛미디어) https://www.hanbit.co.kr/store/books/...

교재 : 핸즈온 머신러닝 : 사이킷런, 케라스, 텐서플로 2를 활용한 머신러닝, 딥러닝 완벽 실무 (저자 : 오렐리앙 제롱 / 번역 : 박해선/출판사  :  한빛미디어)

https://m.yes24.com/Search?query=한빛미디어&mkEntrNo=1469

 

 

'연구실' 카테고리의 다른 글

손실함수  (0) 2024.01.27
신경망 구현  (0) 2024.01.26
인공신경망  (0) 2024.01.24
활성화 함수  (0) 2024.01.24
퍼셉트론  (1) 2024.01.24

관련글 더보기