[딥러닝] 와인의 종류 예측하기

딥러닝/Today I learned :

[딥러닝] 와인의 종류 예측하기

주영 🐱 2021. 3. 25. 15:40

728x90

df_pre라는 공간에 데이터를 불러옵니다.

sample() 함수 : 원본 데이터의 몇 %를 사용할지를 지정, 원본 데이터에서 정해진 비율만큼 랜덤으로 뽑아오는 함수

frac = 1 : 원본 데이터의 100%를 불러오라는 의미 (frac = 0.5로 지정하면 50%만 랜덤)

df_pre = pd.read_csv(’../dataset/wine.csv’, header=None)
df = df_pre.sample(frac=1)

print(df.info())

Data	columns (total 13 columns):
0	6497	non-null	float64
1	6497	non-null	float64
2	6497	non-null	float64
3	6497	non-null	float64
4	6497	non-null	float64
5	6497	non-null	float64
6	6497	non-null	float64
7	6497	non-null	float64
8	6497	non-null	float64
9	6497	non-null	float64
10	6497	non-null	float64
11	6497	non-null	int64
12	6497	non-null	int64
dtypes: float64(11), int64(2)
memory usage: 710.6 KB

총 6497개의 샘플,

13개의 속성

0	주석산 농도	7	밀도
1	아세트산 농도	8	pH
2	구연산 농도	9	황산칼륨 농도
3	잔류 당분 농도	10	알코올 도수
4	염화나트륨 농도	11	와인의 맛(0~10등급)
5	유리 아황산 농도	12	class (1: 레드와인, 0: 화이트와인)
6	총 아황산 농도

0~11까지에 해당하는 12개의 정보를 가지고 13번째 클래스를 맞추는 과제

#X,Y값 설정
dataset = df.values
X = dataset[:,0:12]
Y = dataset[:,12]

<딥러닝 실행>

4개의 은닉층을 만들어 각각 30, 12, 8, 1개의 노드 부여
이항 분류(binary classification) 문제이므로 오차 함수는 binary_crossentropy를 사용, 최적화 함수로 adam()을 사용
전체 샘플이 200회 반복되어 입력될 때까지 실험 반복.
한 번에 입력되는 입력 값은 200개씩 되게끔 하여 종합

from keras.models import Sequential
from keras.layers import Dense
from keras.callbacks import ModelCheckpoint, EarlyStopping

import pandas as pd
import numpy
import tensorflow as tf
import matplotlib.pyplot as plt

# seed 값 설정
seed = 0
numpy.random.seed(seed)
tf.random.set_seed(3)

# 데이터 입력
df_pre = pd.read_csv('../dataset/wine.csv', header=None)
df = df_pre.sample(frac=1)

dataset = df.values
X = dataset[:,0:12]
Y = dataset[:,12]

# 모델 설정
model = Sequential()
model.add(Dense(30,  input_dim=12, activation='relu'))
model.add(Dense(12, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

#모델 컴파일
model.compile(loss='binary_crossentropy',
           optimizer='adam',
           metrics=['accuracy'])

# 모델 실행
model.fit(X, Y, epochs=200, batch_size=200)

# 결과 출력
print("\n Accuracy: %.4f" % (model.evaluate(X, Y)[1]))

Accuracy: 0.9858

정확도 : 98.58%

모델 업데이트

에포크(epoch)마다 모델의 정확도를 함께 기록하면서 저장

먼저 모델이 저장될 폴더 지정.(현재 디렉터리 안에 model 폴더)
해당 폴더가 있는지 확인하고 없으면 폴더 생성.
에포크 횟수와 이때의 테스트셋 오차 값을 이용해 파일 이름을 만들어 hdf 5라는 확장자로 저장 (예를 들어, 100번째 에포크를 실행하고 난 결과 오차가 0.0612라면, 파일명은 100-0.0612.hdf 5)

import os

MODEL_DIR = ’./model/’             # 모델을 저장하는 폴더
if not os.path.exists(MODEL_DIR):  # 만일 위의 폴더가 존재하지 않으면
    os.mkdir(MODEL_DIR)            # 이 이름의 폴더를 만들어 줌

modelpath=”./model/{epoch:02d}-{val_loss:.4f}.hdf5”

모델 저장 -케라스의 콜백 함수 중 ModelCheckpoint() 함수

checkpointer라는 변수에 모니터할 값을 지정합니다.

테스트 오차는 케라스 내부에서 val_loss로 기록(참고로 학습 정확도는 acc, 테스트셋 정확도는 val_acc, 학습셋 오차는 loss로 각각 기록).

모델이 저장될 곳을 앞서 만든 modelpath로 지정하고 verbose의 값을 1로 정하면 해당 함수의 진행 사항이 출력되고, 0으로 정하면 출력되지 않습니다.

from keras.callbacks import ModelCheckpoint

checkpointer = ModelCheckpoint(filepath=modelpath, monitor=‘val_loss’, verbose=1,save_best_only=True)

model.fit(X, Y, validation_split=0.2, epochs=200, batch_size=200, verbose=0, callbacks=[checkpointer])

실행결과
Epoch 00194: saving model to ./model/194-0.0629.hdf5 Epoch 00195: saving model to ./model/195-0.0636.hdf5 Epoch 00196: saving model to ./model/196-0.0630.hdf5 Epoch 00197: saving model to ./model/197-0.0695.hdf5 Epoch 00198: saving model to ./model/198-0.0724.hdf5 Epoch 00199: saving model to ./model/199-0.0635.hdf5

Epoch 0~199까지 총 200개의 모델이 model 폴더에 저장.

저장된 파일의 이름 = 에포크 수와 이때의 테스트셋 오차 값

ModelCheckpoint() 함수에 모델이 앞서 저장한 모델보다 나아졌을 때만 저장하게끔 하려면 save_best_only 값 = True

from keras.models import Sequential
from keras.layers import Dense
from keras.callbacks import ModelCheckpoint

import pandas as pd
import numpy
import os
import tensorflow as tf

# seed 값 설정
numpy.random.seed(3)
tf.random.set_seed(3)

df_pre = pd.read_csv('../dataset/wine.csv', header=None)
df = df_pre.sample(frac=1)

dataset = df.values
X = dataset[:,0:12]
Y = dataset[:,12]

# 모델의 설정
model = Sequential()
model.add(Dense(30,  input_dim=12, activation='relu'))
model.add(Dense(12, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

# 모델 컴파일
model.compile(loss='binary_crossentropy',
          optimizer='adam',
          metrics=['accuracy'])

# 모델 저장 폴더 설정
MODEL_DIR = './model/'
if not os.path.exists(MODEL_DIR):
   os.mkdir(MODEL_DIR)

# 모델 저장 조건 설정
modelpath="./model/{epoch:02d}-{val_loss:.4f}.hdf5"
checkpointer = ModelCheckpoint(filepath=modelpath, monitor='val_loss', verbose=1, save_best_only=True)

# 모델 실행 및 저장
model.fit(X, Y, validation_split=0.2, epochs=200, batch_size=200, verbose=0, callbacks=[checkpointer])

학습시간에 따른 정확도와 테스트 결과를 그래프로 표현하기

df = df_pre.sample(frac=0.15)
history = model.fit(X, Y, validation_split=0.33, epochs=3500, batch_size=500)

history =모델이 학습되는 과정 저장

긴 학습의 예를 지켜 보기 위해 에포크(epoch)를 3,500으로 조정하였습니다.

시간이 너무 오래 걸리지 않도록 sample() 함수를 이용하여 전체 샘플 중 15%만 불러오게 하고, 배치 크기는 500으로 늘려 한 번 딥러닝을 가동할 때 더 많이 입력되게끔 했습니다. 불러온 샘플 중 33%는 분리하여 테스트셋으로 사용하였습니다.

그래프로 표현하기 위한 라이브러리를 불러오고 오차와 정확도의 값을 정합니다. y_vloss에 테스트셋(33%)으로 실험한 결과의 오차 값을 저장하고, y_acc에 학습셋(67%)으로 측정한 정확도의 값을 저장합니다.

import matplotlib.pyplot as plt
 
y_vloss=history.history['val_loss']
y_acc=history.history['acc']

x 값을 지정하고 정확도를 파란색으로, 오차를 빨간색으로 표시

x_len = numpy.arange(len(y_acc))
plt.plot(x_len, y_vloss, "o", c="red", markersize=3)
plt.plot(x_len, y_acc, "o", c="blue", markersize=3)

전체 코드

from keras.models import Sequential
from keras.layers import Dense
from keras.callbacks import ModelCheckpoint

import pandas as pd
import numpy
import os
import matplotlib.pyplot as plt
import tensorflow as tf

# seed 값 설정
numpy.random.seed(3)
tf.random.set_seed(3)

df_pre = pd.read_csv('../dataset/wine.csv', header=None)
df = df_pre.sample(frac=0.15)

dataset = df.values
X = dataset[:,0:12]
Y = dataset[:,12]

# 모델의 설정
model = Sequential()
model.add(Dense(30,  input_dim=12, activation='relu'))
model.add(Dense(12, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

# 모델 컴파일
model.compile(loss='binary_crossentropy',
          optimizer='adam',
          metrics=['accuracy'])

# 모델 저장 폴더 설정
MODEL_DIR = './model/'
if not os.path.exists(MODEL_DIR):
   os.mkdir(MODEL_DIR)

# 모델 저장 조건 설정
modelpath="./model/{epoch:02d}-{val_loss:.4f}.hdf5"
checkpointer = ModelCheckpoint(filepath=modelpath, monitor='val_loss', verbose=1, save_best_only=True)

# 모델 실행 및 저장
history = model.fit(X, Y, validation_split=0.33, epochs=3500, batch_size=500)

# y_vloss에 테스트셋으로 실험 결과의 오차 값을 저장
y_vloss=history.history['val_loss']

# y_acc 에 학습 셋으로 측정한 정확도의 값을 저장
y_acc=history.history['acc']

# x값을 지정하고 정확도를 파란색으로, 오차를 빨간색으로 표시
x_len = numpy.arange(len(y_acc))
plt.plot(x_len, y_vloss, "o", c="red", markersize=3)
plt.plot(x_len, y_acc, "o", c="blue", markersize=3)

plt.show()

학습셋의 정확도는 시간이 흐를수록 좋아지지만 테스트 결과는 어느 정도 이상 시간이 흐르면 더 나아지지 않는다

학습의 자동 중단

학습이 진행될수록 학습셋의 정확도는 올라가지만 과적합 때문에 테스트셋의 실험 결과는 점점 나빠지게 됩니다.

EarlyStopping() 함수 : 학습이 진행되어도 테스트셋 오차가 줄지 않으면 학습을 멈추게 하는 함수

early_stopping_callback에 EarlyStopping() 함수에 모니터할 값과 테스트 오차가 좋아지지 않아도 몇 번까지 기다릴지 저장

from keras.callbacks import EarlyStopping

early_stopping_callback = EarlyStopping(monitor=‘val_loss’, patience=100)

앞서 정한 그대로 에포크 횟수와 배치 크기 등을 설정하고 early_stopping_callback 값을 불러옵니다.

model.fit(X, Y, validation_split=0.33, epochs=2000, batch_size=500, callbacks=[early_stopping_callback])

전체 코드(자동 중단)

from keras.models import Sequential
from keras.layers import Dense
from keras.callbacks import EarlyStopping

import pandas as pd
import numpy
import tensorflow as tf

# seed 값 설정
numpy.random.seed(3)
tf.random.set_seed(3)

df_pre = pd.read_csv('../dataset/wine.csv', header=None)
df = df_pre.sample(frac=0.15)

dataset = df.values
X = dataset[:,0:12]
Y = dataset[:,12]

model = Sequential()
model.add(Dense(30,  input_dim=12, activation='relu'))
model.add(Dense(12, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy',
           optimizer='adam',
           metrics=['accuracy'])

# 자동 중단 설정
early_stopping_callback = EarlyStopping(monitor='val_loss', patience=100)

# 모델 실행
model.fit(X, Y, validation_split=0.2, epochs=2000, batch_size=500, callbacks=[early_stopping_callback])

# 결과 출력
print("\n Accuracy: %.4f" % (model.evaluate(X, Y)[1]))

실행결과
Epoch 1531/2000 780/780 [==============================] - 0s 8us/step - loss: 0.0303 - accuracy: 0.9872 - val_loss: 0.0586 - val_accuracy: 0.9795
Epoch 1532/2000 780/780 [==============================] - 0s 6us/step - loss: 0.0308 - accuracy: 0.9859 - val_loss: 0.0627 - val_accuracy: 0.9795
Epoch 1533/2000 780/780 [==============================] - 0s 8us/step - loss: 0.0294 - accuracy: 0.9872 - val_loss: 0.0599 - val_accuracy: 0.9795 975/975 [==============================] - 0s 16us/step
Accuracy: 0.9877

에포크를 2,000으로 설정하였지만, 도중에 계산이 멈추는 것을 확인할 수 있습니다.

모델 업데이트 함수 + 학습 자동 중단 함수 전체 코드

from keras.models import Sequential
from keras.layers import Dense
from keras.callbacks import ModelCheckpoint,EarlyStopping

import pandas as pd
import numpy
import os
import tensorflow as tf

# seed 값 설정
numpy.random.seed(3)
tf.random.set_seed(3)

df_pre = pd.read_csv('../dataset/wine.csv', header=None)
df = df_pre.sample(frac=0.15)

dataset = df.values
X = dataset[:,0:12]
Y = dataset[:,12]

model = Sequential()
model.add(Dense(30,  input_dim=12, activation='relu'))
model.add(Dense(12, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy',
          optimizer='adam',
          metrics=['accuracy'])

# 모델 저장 폴더 만들기
MODEL_DIR = './model/'
if not os.path.exists(MODEL_DIR):
   os.mkdir(MODEL_DIR)

modelpath="./model/{epoch:02d}-{val_loss:.4f}.hdf5"

# 모델 업데이트 및 저장
checkpointer = ModelCheckpoint(filepath=modelpath, monitor='val_loss', verbose=1, save_best_only=True)

# 학습 자동 중단 설정
early_stopping_callback = EarlyStopping(monitor='val_loss', patience=100)

model.fit(X, Y, validation_split=0.2, epochs=3500, batch_size=500, verbose=0, callbacks=[early_stopping_callback,checkpointer])

Epoch 01344: val_loss did not improve from 0.05648

Epoch 01345: val_loss did not improve from 0.05648

Epoch 01346: val_loss improved from 0.05648 to 0.05631, saving model to ./model/1346-0.0563.hdf5

Epoch 01395: val_loss did not improve from 0.05631

Epoch 01396: val_loss did not improve from 0.05631

Epoch 01397: val_loss did not improve from 0.05631

Epoch 01398: val_loss improved from 0.05631 to 0.05524, saving model to ./model/1398-0.0552.hdf5

Epoch 01496: val_loss did not improve from 0.05524

Epoch 01497: val_loss did not improve from 0.05524

Epoch 01498: val_loss did not improve from 0.05524

'딥러닝 > Today I learned :' 카테고리의 다른 글

[딥러닝] 이미지 인식 , 컨볼루션 신경망(CNN) (0)	2021.03.27
[딥러닝] 선형 회귀 적용하기 (0)	2021.03.26
[딥러닝] 초음파 광물 데이터 : 과적합 피하기 (0)	2021.03.24
[딥러닝] 다중 분류 문제 : 붓꽃(Iris) 품종 분류 (0)	2021.03.23
[딥러닝] 피마 인디언 당뇨병 예측하기 (0)	2021.03.22

현재글[딥러닝] 와인의 종류 예측하기

TIL

오블완, 오픽AL, 오픽 모의테스트, 딥러닝, 오픽, 배당투자계산기, 1인개발, 오픽 AL, 오픽기출, 1인개발자, 오픽IH, 티스토리챌린지, 배당투자, 오픽1주, 안드로이드개발, 1인개발마케팅, 특수문자이모티콘, 오픽공부법, 오픽모의고사, 마케팅,

Today :
Yesterday :

TIL