🧭 Pertemuan 1 - Pengenalan Data Sains & Google Colab
🎯 Tujuan Pembelajaran
Setelah pertemuan ini, mahasiswa diharapkan mampu:
- Memahami apa itu Data Sains dan ruang lingkupnya
- Mengenal tahapan umum proses data sains
- Mengoperasikan Google Colab untuk menjalankan kode Python sederhana
- Mengenal library dasar Python untuk analisis data
🧩 1. Konsep Dasar Data Sains
Data Sains adalah bidang ilmu interdisipliner yang menggabungkan:
- Statistika → untuk analisis dan inferensi data
- Ilmu Komputer → untuk pengolahan data dan otomatisasi
- Domain Knowledge → pemahaman konteks data yang dianalisis
Tujuan: Mengubah data mentah menjadi informasi dan insight yang berguna untuk pengambilan keputusan bisnis, riset, dan pengembangan teknologi.
🌟 Contoh Aplikasi Nyata Data Sains
- E-commerce: Amazon dan Tokopedia menggunakan data sains untuk memprediksi produk yang diminati pelanggan berdasarkan riwayat pembelian dan pencarian
- Transportasi: Gojek dan Grab menghitung estimasi waktu tempuh menggunakan analisis data lalu lintas real-time
- Kesehatan: Rumah sakit menganalisis data pasien untuk deteksi dini penyakit seperti diabetes dan kanker
- Keuangan: Bank menggunakan machine learning untuk mendeteksi transaksi penipuan
- Media Sosial: Instagram dan TikTok menggunakan algoritma rekomendasi berbasis data untuk menampilkan konten yang relevan
📄 2. Proses Umum dalam Data Sains
- Mengumpulkan Data → dari database, web scraping, survei, sensor IoT, API
- Membersihkan Data → menghapus duplikasi, menangani data kosong, memperbaiki format
- Eksplorasi & Visualisasi Data → melihat pola dan hubungan antar variabel
- Pemodelan / Machine Learning → melatih model untuk prediksi atau klasifikasi
- Evaluasi & Interpretasi → menilai performa model dan menarik kesimpulan bisnis
- Deployment → menerapkan model ke sistem produksi
💻 3. Mengenal Google Colab
Google Colab adalah platform gratis dari Google untuk menjalankan Python langsung di browser, tanpa instalasi.
Keunggulan Google Colab:
- ✅ Gratis dan berbasis cloud
- ✅ Mendukung library Python populer (numpy, pandas, matplotlib, tensorflow)
- ✅ Akses GPU/TPU gratis untuk machine learning
- ✅ Bisa dihubungkan dengan Google Drive untuk penyimpanan
- ✅ Ideal untuk pembelajaran data sains dan prototyping
- ✅ Kolaborasi real-time seperti Google Docs
Cara Memulai Google Colab:
- Buka https://colab.research.google.com
- Login dengan akun Google
- Klik "New Notebook" atau "File → New Notebook"
- Ganti nama file menjadi "Pertemuan1_Pengantar_Data_Sains.ipynb"
🧠 4. Bahasa Pemrograman Python untuk Data Sains
Python menjadi bahasa utama dalam data sains karena:
- Sintaks sederhana dan mudah dipelajari
- Banyak library khusus untuk analisis data
- Komunitas besar dan dokumentasi lengkap
- Terintegrasi baik dengan tools data science lainnya
Library Penting untuk Data Sains:
| Library | Fungsi Utama |
|---|---|
| NumPy | Operasi numerik dan array multidimensi |
| Pandas | Manipulasi data tabular (DataFrame) |
| Matplotlib | Visualisasi data dasar (grafik, plot) |
| Seaborn | Visualisasi statistik yang lebih cantik |
| Scikit-learn | Machine learning dan data mining |
| TensorFlow/PyTorch | Deep learning dan neural networks |
🚀 5. Praktik di Google Colab
Kode 1 - Hello Data Science
# Program pertama dalam data sains
print("Hello Data Science!")
print("Selamat datang di dunia analisis data.")
print("Mari kita mulai perjalanan menjadi Data Scientist!")
Kode 2 - Mengecek Versi Python dan Import Library
# Cek versi Python
!python --version
# Import library dasar
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
print("NumPy version:", np.__version__)
print("Pandas version:", pd.__version__)
print("Library berhasil diimport!")
Kode 3 - Operasi Dasar dengan NumPy
# Membuat array dengan NumPy
angka = np.array([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])
# Statistik dasar
print("Data:", angka)
print("Rata-rata:", np.mean(angka))
print("Median:", np.median(angka))
print("Standar deviasi:", np.std(angka))
print("Nilai minimum:", np.min(angka))
print("Nilai maksimum:", np.max(angka))
print("Jumlah total:", np.sum(angka))
Kode 4 - Analisis Data Sederhana dengan Pandas
# Membuat DataFrame sederhana
data = {
"Nama": ["Ani", "Budi", "Cici", "Dodi", "Eka", "Fajar"],
"Nilai": [85, 70, 90, 65, 75, 88],
"Kehadiran": [95, 80, 100, 70, 85, 90]
}
df = pd.DataFrame(data)
print("Data Mahasiswa:")
print(df)
print("\nStatistik Nilai:")
print(df["Nilai"].describe())
print("\nMahasiswa dengan nilai tertinggi:")
print(df[df["Nilai"] == df["Nilai"].max()])
Kode 5 - Visualisasi Data
# Visualisasi data menggunakan Matplotlib
plt.figure(figsize=(10, 6))
plt.bar(df["Nama"], df["Nilai"], color='crimson', edgecolor='black', alpha=0.7)
plt.title("Visualisasi Nilai Mahasiswa", fontsize=16, fontweight='bold')
plt.xlabel("Nama Mahasiswa", fontsize=12)
plt.ylabel("Nilai", fontsize=12)
plt.ylim(0, 100)
plt.grid(axis='y', alpha=0.3)
# Tambahkan nilai di atas bar
for i, v in enumerate(df["Nilai"]):
plt.text(i, v + 2, str(v), ha='center', fontweight='bold')
plt.tight_layout()
plt.show()
🧮 6. Studi Kasus Mini - Analisis Nilai Kelas
📊 Kasus: Analisis Performa Mahasiswa
Seorang dosen ingin menganalisis nilai ujian mahasiswanya untuk mengetahui distribusi dan performa kelas.
# Dataset nilai mahasiswa
nama = ["Ali", "Bella", "Citra", "Doni", "Evi", "Fajar", "Gina", "Hadi", "Ika", "Joko"]
nilai = [75, 82, 91, 68, 85, 77, 90, 72, 88, 79]
# Membuat DataFrame
df = pd.DataFrame({"Nama": nama, "Nilai": nilai})
# Analisis statistik
print("=== ANALISIS NILAI MAHASISWA ===")
print("\nData Lengkap:")
print(df)
print("\n--- Statistik Deskriptif ---")
print(f"Nilai rata-rata kelas: {df['Nilai'].mean():.2f}")
print(f"Nilai tertinggi: {df['Nilai'].max()} (oleh {df[df['Nilai'] == df['Nilai'].max()]['Nama'].values[0]})")
print(f"Nilai terendah: {df['Nilai'].min()} (oleh {df[df['Nilai'] == df['Nilai'].min()]['Nama'].values[0]})")
print(f"Median nilai: {df['Nilai'].median()}")
print(f"Standar deviasi: {df['Nilai'].std():.2f}")
# Kategorisasi nilai
def kategorikan_nilai(nilai):
if nilai >= 85:
return "A (Sangat Baik)"
elif nilai >= 75:
return "B (Baik)"
elif nilai >= 65:
return "C (Cukup)"
else:
return "D (Kurang)"
df["Kategori"] = df["Nilai"].apply(kategorikan_nilai)
print("\n--- Kategori Nilai ---")
print(df[["Nama", "Nilai", "Kategori"]])
# Visualisasi
plt.figure(figsize=(12, 5))
# Subplot 1: Bar chart
plt.subplot(1, 2, 1)
colors = ['#c31432' if x >= 85 else '#e74c3c' if x >= 75 else '#f39c12' for x in df["Nilai"]]
plt.bar(df["Nama"], df["Nilai"], color=colors, edgecolor='black', alpha=0.8)
plt.axhline(y=df["Nilai"].mean(), color='blue', linestyle='--', label=f'Rata-rata: {df["Nilai"].mean():.1f}')
plt.title("Distribusi Nilai Mahasiswa", fontweight='bold')
plt.xlabel("Nama Mahasiswa")
plt.ylabel("Nilai")
plt.xticks(rotation=45)
plt.legend()
plt.grid(axis='y', alpha=0.3)
# Subplot 2: Pie chart kategori
plt.subplot(1, 2, 2)
kategori_count = df["Kategori"].value_counts()
plt.pie(kategori_count.values, labels=kategori_count.index, autopct='%1.1f%%',
colors=['#27ae60', '#3498db', '#f39c12', '#e74c3c'], startangle=90)
plt.title("Distribusi Kategori Nilai", fontweight='bold')
plt.tight_layout()
plt.show()
💡 Tips Praktik:
- Selalu jalankan cell secara berurutan dari atas ke bawah
- Gunakan Shift+Enter untuk menjalankan cell
- Simpan notebook secara berkala (Ctrl+S atau Cmd+S)
- Beri komentar pada kode untuk dokumentasi
- Eksplorasi dokumentasi library dengan mengetik
help(nama_fungsi)
📚 7. Tugas Ringan (Latihan Mandiri)
- Buat data nilai untuk 10 mahasiswa (nama dan nilai)
- Hitung dan tampilkan:
- Nilai tertinggi dan terendah
- Rata-rata kelas
- Jumlah mahasiswa yang lulus (nilai ≥ 70)
- Buat grafik batang untuk visualisasi nilai
- Tuliskan kesimpulan sederhana tentang performa kelas
✍️ Kesimpulan
Pada pertemuan pertama ini, mahasiswa telah:
- ✅ Memahami pengertian Data Sains dan ruang lingkupnya
- ✅ Mengenal proses kerja dalam proyek data sains
- ✅ Mampu menggunakan Google Colab sebagai environment kerja
- ✅ Mengenal dasar Python dan library penting untuk data sains
- ✅ Melakukan analisis data sederhana dan visualisasi
Pertemuan selanjutnya: Kita akan memperdalam dasar-dasar pemrograman Python yang diperlukan untuk analisis data lebih lanjut.