🧭 Pertemuan 1 - Pengenalan Data Sains & Google Colab

🎯 Tujuan Pembelajaran

Setelah pertemuan ini, mahasiswa diharapkan mampu:

  1. Memahami apa itu Data Sains dan ruang lingkupnya
  2. Mengenal tahapan umum proses data sains
  3. Mengoperasikan Google Colab untuk menjalankan kode Python sederhana
  4. Mengenal library dasar Python untuk analisis data

🧩 1. Konsep Dasar Data Sains

Data Sains adalah bidang ilmu interdisipliner yang menggabungkan:

  • Statistika → untuk analisis dan inferensi data
  • Ilmu Komputer → untuk pengolahan data dan otomatisasi
  • Domain Knowledge → pemahaman konteks data yang dianalisis

Tujuan: Mengubah data mentah menjadi informasi dan insight yang berguna untuk pengambilan keputusan bisnis, riset, dan pengembangan teknologi.

🌟 Contoh Aplikasi Nyata Data Sains

  • E-commerce: Amazon dan Tokopedia menggunakan data sains untuk memprediksi produk yang diminati pelanggan berdasarkan riwayat pembelian dan pencarian
  • Transportasi: Gojek dan Grab menghitung estimasi waktu tempuh menggunakan analisis data lalu lintas real-time
  • Kesehatan: Rumah sakit menganalisis data pasien untuk deteksi dini penyakit seperti diabetes dan kanker
  • Keuangan: Bank menggunakan machine learning untuk mendeteksi transaksi penipuan
  • Media Sosial: Instagram dan TikTok menggunakan algoritma rekomendasi berbasis data untuk menampilkan konten yang relevan

📄 2. Proses Umum dalam Data Sains

  1. Mengumpulkan Data → dari database, web scraping, survei, sensor IoT, API
  2. Membersihkan Data → menghapus duplikasi, menangani data kosong, memperbaiki format
  3. Eksplorasi & Visualisasi Data → melihat pola dan hubungan antar variabel
  4. Pemodelan / Machine Learning → melatih model untuk prediksi atau klasifikasi
  5. Evaluasi & Interpretasi → menilai performa model dan menarik kesimpulan bisnis
  6. Deployment → menerapkan model ke sistem produksi

💻 3. Mengenal Google Colab

Google Colab adalah platform gratis dari Google untuk menjalankan Python langsung di browser, tanpa instalasi.

Keunggulan Google Colab:

  • ✅ Gratis dan berbasis cloud
  • ✅ Mendukung library Python populer (numpy, pandas, matplotlib, tensorflow)
  • ✅ Akses GPU/TPU gratis untuk machine learning
  • ✅ Bisa dihubungkan dengan Google Drive untuk penyimpanan
  • ✅ Ideal untuk pembelajaran data sains dan prototyping
  • ✅ Kolaborasi real-time seperti Google Docs

Cara Memulai Google Colab:

  1. Buka https://colab.research.google.com
  2. Login dengan akun Google
  3. Klik "New Notebook" atau "File → New Notebook"
  4. Ganti nama file menjadi "Pertemuan1_Pengantar_Data_Sains.ipynb"

🧠 4. Bahasa Pemrograman Python untuk Data Sains

Python menjadi bahasa utama dalam data sains karena:

  • Sintaks sederhana dan mudah dipelajari
  • Banyak library khusus untuk analisis data
  • Komunitas besar dan dokumentasi lengkap
  • Terintegrasi baik dengan tools data science lainnya

Library Penting untuk Data Sains:

Library Fungsi Utama
NumPy Operasi numerik dan array multidimensi
Pandas Manipulasi data tabular (DataFrame)
Matplotlib Visualisasi data dasar (grafik, plot)
Seaborn Visualisasi statistik yang lebih cantik
Scikit-learn Machine learning dan data mining
TensorFlow/PyTorch Deep learning dan neural networks

🚀 5. Praktik di Google Colab

Kode 1 - Hello Data Science

# Program pertama dalam data sains
print("Hello Data Science!")
print("Selamat datang di dunia analisis data.")
print("Mari kita mulai perjalanan menjadi Data Scientist!")

Kode 2 - Mengecek Versi Python dan Import Library

# Cek versi Python
!python --version

# Import library dasar
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

print("NumPy version:", np.__version__)
print("Pandas version:", pd.__version__)
print("Library berhasil diimport!")

Kode 3 - Operasi Dasar dengan NumPy

# Membuat array dengan NumPy
angka = np.array([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])

# Statistik dasar
print("Data:", angka)
print("Rata-rata:", np.mean(angka))
print("Median:", np.median(angka))
print("Standar deviasi:", np.std(angka))
print("Nilai minimum:", np.min(angka))
print("Nilai maksimum:", np.max(angka))
print("Jumlah total:", np.sum(angka))

Kode 4 - Analisis Data Sederhana dengan Pandas

# Membuat DataFrame sederhana
data = {
    "Nama": ["Ani", "Budi", "Cici", "Dodi", "Eka", "Fajar"],
    "Nilai": [85, 70, 90, 65, 75, 88],
    "Kehadiran": [95, 80, 100, 70, 85, 90]
}

df = pd.DataFrame(data)
print("Data Mahasiswa:")
print(df)
print("\nStatistik Nilai:")
print(df["Nilai"].describe())
print("\nMahasiswa dengan nilai tertinggi:")
print(df[df["Nilai"] == df["Nilai"].max()])

Kode 5 - Visualisasi Data

# Visualisasi data menggunakan Matplotlib
plt.figure(figsize=(10, 6))
plt.bar(df["Nama"], df["Nilai"], color='crimson', edgecolor='black', alpha=0.7)
plt.title("Visualisasi Nilai Mahasiswa", fontsize=16, fontweight='bold')
plt.xlabel("Nama Mahasiswa", fontsize=12)
plt.ylabel("Nilai", fontsize=12)
plt.ylim(0, 100)
plt.grid(axis='y', alpha=0.3)

# Tambahkan nilai di atas bar
for i, v in enumerate(df["Nilai"]):
    plt.text(i, v + 2, str(v), ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

🧮 6. Studi Kasus Mini - Analisis Nilai Kelas

📊 Kasus: Analisis Performa Mahasiswa

Seorang dosen ingin menganalisis nilai ujian mahasiswanya untuk mengetahui distribusi dan performa kelas.

# Dataset nilai mahasiswa
nama = ["Ali", "Bella", "Citra", "Doni", "Evi", "Fajar", "Gina", "Hadi", "Ika", "Joko"]
nilai = [75, 82, 91, 68, 85, 77, 90, 72, 88, 79]

# Membuat DataFrame
df = pd.DataFrame({"Nama": nama, "Nilai": nilai})

# Analisis statistik
print("=== ANALISIS NILAI MAHASISWA ===")
print("\nData Lengkap:")
print(df)
print("\n--- Statistik Deskriptif ---")
print(f"Nilai rata-rata kelas: {df['Nilai'].mean():.2f}")
print(f"Nilai tertinggi: {df['Nilai'].max()} (oleh {df[df['Nilai'] == df['Nilai'].max()]['Nama'].values[0]})")
print(f"Nilai terendah: {df['Nilai'].min()} (oleh {df[df['Nilai'] == df['Nilai'].min()]['Nama'].values[0]})")
print(f"Median nilai: {df['Nilai'].median()}")
print(f"Standar deviasi: {df['Nilai'].std():.2f}")

# Kategorisasi nilai
def kategorikan_nilai(nilai):
    if nilai >= 85:
        return "A (Sangat Baik)"
    elif nilai >= 75:
        return "B (Baik)"
    elif nilai >= 65:
        return "C (Cukup)"
    else:
        return "D (Kurang)"

df["Kategori"] = df["Nilai"].apply(kategorikan_nilai)
print("\n--- Kategori Nilai ---")
print(df[["Nama", "Nilai", "Kategori"]])

# Visualisasi
plt.figure(figsize=(12, 5))

# Subplot 1: Bar chart
plt.subplot(1, 2, 1)
colors = ['#c31432' if x >= 85 else '#e74c3c' if x >= 75 else '#f39c12' for x in df["Nilai"]]
plt.bar(df["Nama"], df["Nilai"], color=colors, edgecolor='black', alpha=0.8)
plt.axhline(y=df["Nilai"].mean(), color='blue', linestyle='--', label=f'Rata-rata: {df["Nilai"].mean():.1f}')
plt.title("Distribusi Nilai Mahasiswa", fontweight='bold')
plt.xlabel("Nama Mahasiswa")
plt.ylabel("Nilai")
plt.xticks(rotation=45)
plt.legend()
plt.grid(axis='y', alpha=0.3)

# Subplot 2: Pie chart kategori
plt.subplot(1, 2, 2)
kategori_count = df["Kategori"].value_counts()
plt.pie(kategori_count.values, labels=kategori_count.index, autopct='%1.1f%%', 
        colors=['#27ae60', '#3498db', '#f39c12', '#e74c3c'], startangle=90)
plt.title("Distribusi Kategori Nilai", fontweight='bold')

plt.tight_layout()
plt.show()

💡 Tips Praktik:

  • Selalu jalankan cell secara berurutan dari atas ke bawah
  • Gunakan Shift+Enter untuk menjalankan cell
  • Simpan notebook secara berkala (Ctrl+S atau Cmd+S)
  • Beri komentar pada kode untuk dokumentasi
  • Eksplorasi dokumentasi library dengan mengetik help(nama_fungsi)

📚 7. Tugas Ringan (Latihan Mandiri)

  1. Buat data nilai untuk 10 mahasiswa (nama dan nilai)
  2. Hitung dan tampilkan:
    • Nilai tertinggi dan terendah
    • Rata-rata kelas
    • Jumlah mahasiswa yang lulus (nilai ≥ 70)
  3. Buat grafik batang untuk visualisasi nilai
  4. Tuliskan kesimpulan sederhana tentang performa kelas

✍️ Kesimpulan

Pada pertemuan pertama ini, mahasiswa telah:

  • ✅ Memahami pengertian Data Sains dan ruang lingkupnya
  • ✅ Mengenal proses kerja dalam proyek data sains
  • ✅ Mampu menggunakan Google Colab sebagai environment kerja
  • ✅ Mengenal dasar Python dan library penting untuk data sains
  • ✅ Melakukan analisis data sederhana dan visualisasi

Pertemuan selanjutnya: Kita akan memperdalam dasar-dasar pemrograman Python yang diperlukan untuk analisis data lebih lanjut.