List

Dalam data mining, sumber data bisa berasal dari csv. Dataset seringkali juga disimpan dalam format *.csv. Untuk mengambil data dari csv, kita menggunakan paket pandas. Data dari CSV akan di konversi kedalam Dataframe Untuk itu, kita awali dengan instalasi paket pandas menggunakan PIP.

pip install pandas

Buatlah program dengan nama dataframe_1.py, Simpan di D:\Project\Latihan

import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt data = pd.read_csv('Dataset/Iris.csv')

Data yang akan kita buka berada di direktori D:\Project\Latihan\Dataset. Kita menggunakan paket Seaborn dan Matplotlib untuk visualisasi data.

Melihat data

Untuk melihat beberapa data yang paling atas (header), gunakan perintah data.head(). Secara default data yang ditampilkan berjumlah 5, namun kita bisa mengganti dengan angka yang lain.

print(data.head()) Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species 0 1 5.1 3.5 1.4 0.2 Iris-setosa 1 2 4.9 3.0 1.4 0.2 Iris-setosa 2 3 4.7 3.2 1.3 0.2 Iris-setosa 3 4 4.6 3.1 1.5 0.2 Iris-setosa 4 5 5.0 3.6 1.4 0.2 Iris-setosa

Sedangkan untuk melihat data yang paling akhir dari sebuah dataframe, digunakan perintah data.tail(). Secara default data yang ditampilkan berjumlah 5, namun kita bisa mengganti dengan angka yang lain.

print(data.tail(2)) Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species 148 149 6.2 3.4 5.4 2.3 Iris-virginica 149 150 5.9 3.0 5.1 1.8 Iris-virginica

Untuk mendapatkan informasi type data dll dari dataframe yang ada, kita bisa menggunakan perintah

print(data.info())

RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Id 150 non-null int64
1 SepalLengthCm 150 non-null float64
2 SepalWidthCm 150 non-null float64
3 PetalLengthCm 150 non-null float64
4 PetalWidthCm 150 non-null float64
5 Species 150 non-null object
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB
None

Sedangkan untuk mengetahui informasi statistik diskriptif dari dataframe yang kita load, menggunakan perintah data.describe()

print(data.describe()) Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm count 150.000000 150.000000 150.000000 150.000000 150.000000 mean 75.500000 5.843333 3.054000 3.758667 1.198667 std 43.445368 0.828066 0.433594 1.764420 0.763161 min 1.000000 4.300000 2.000000 1.000000 0.100000 25% 38.250000 5.100000 2.800000 1.600000 0.300000 50% 75.500000 5.800000 3.000000 4.350000 1.300000 75% 112.750000 6.400000 3.300000 5.100000 1.800000 max 150.000000 7.900000 4.400000 6.900000 2.500000

Untuk melihat masing-masing jumlah data pada kolom digunakan perintah

data['Species'].value_counts()
Iris-virginica 50
Iris-versicolor 50
Iris-setosa 50
Name: Species, dtype: int64

Membuang Data

Untuk membuang data dari dataframe digunakan perintah del. Untuk membuang data berdasar kolom digunakan perintah :

del data['Id'] print(data.head()) SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species 0 5.1 3.5 1.4 0.2 Iris-setosa 1 4.9 3.0 1.4 0.2 Iris-setosa 2 4.7 3.2 1.3 0.2 Iris-setosa 3 4.6 3.1 1.5 0.2 Iris-setosa 4 5.0 3.6 1.4 0.2 Iris-setosa

Mengabaikan Data tanpa menghapus

Dalam pengolahan data sering kali kita hanya membutuhkan data tertentu untuk mempercepat pengolahan data dan mengurangi proses komputasi. Perintah yang digunakan adalah drop.

data.drop(['Id'], axis = 1) print(data.head())

Visualisasi Data

Untuk menampilkan data dalam bentuk gambar, kita bisa menggunakan Seaborn dan Matplotlib.

g = sns.pairplot(tmp, hue='Species', markers='+') plt.show()

Menyimpan ke CSV

Perubahan yang kita lakukan dalam dataframe bisa kita simpan dalam file *.csv yang baru. Proses penyimpanan ini akan menghemat proses komputasi yang berulang. namun jika jarang kita proses mungkin proses penyimpanan kedalam file baru tidak perlu dilakukan.

data.to_csv('Dataset/Iris_Update.csv')

Perintah untuk menyimpan file Iris.csv yang kita buka sebelumnya menjadi Iris_update.csv. File disimpan di direktori Dataset.