Sessi 15: Presentasi Proyek Akhir dan Validasi Ilmiah
Fokus: Menyajikan hasil Capstone Project secara efektif. Penekanan pada narasi data, justifikasi metodologi (terutama Normalisasi dan Metrik), dan interpretasi temuan dari sudut pandang Fisika/Matematika.
A. Struktur Presentasi Proyek Data Science
Presentasi proyek akhir harus memiliki narasi yang kuat, memandu audiens (dosen dan rekan mahasiswa) melalui perjalanan data, bukan sekadar menampilkan *output* kode. Durasi presentasi yang efektif harus dibagi secara proporsional.
1. Pembagian Waktu dan Fokus
- Pendahuluan (15%): Judul, Latar Belakang, dan Rumusan Masalah. Mengapa data ini penting? (CPMK 1).
- Data & Wrangling (25%): Sumber data, statistik deskriptif kunci, visualisasi EDA terpenting (Sessi 5-6), dan Justifikasi untuk teknik pembersihan (Sessi 3-4). Apa yang Anda temukan tentang data sebelum pemodelan?
- Metodologi & Pemodelan (30%): Detail tentang model yang dipilih (Sessi 9-12), *Train-Test Split*, dan teknik Scaling (Normalisasi/Standardisasi). Mengapa Anda memilih model ini?
- Hasil & Evaluasi (20%): Tampilkan metrik utama (R2, RMSE, *Confusion Matrix*), dan interpretasikan *Feature Importance*. Apakah model Anda berhasil menjawab rumusan masalah? (CPMK 4).
- Kesimpulan & Saran (10%): Implikasi temuan secara ilmiah dan saran untuk pengembangan model di masa depan.
B. Interpretasi Hasil Berbasis Konteks Ilmiah
Untuk mahasiswa Fisika dan Matematika, evaluasi tidak hanya tentang nilai metrik, tetapi juga tentang makna fisik dari temuan tersebut.
1. Interpretasi Regresi (Contoh: Energi)
Jika menggunakan Regresi Linear (Sessi 9) untuk memprediksi keluaran energi (E) berdasarkan suhu (T) dan tekanan (P):
- Koefisien (β1, β2): Jelaskan makna fisik dari setiap koefisien. Jika β1 = 0.5, berarti kenaikan 1 unit suhu meningkatkan energi keluaran sebesar 0.5 unit (asumsi variabel lain konstan).
- R-Squared: Jelaskan bahwa R2 = 0.95 berarti 95% variasi energi dapat dijelaskan oleh model suhu dan tekanan. Nilai R2 harus diinterpretasikan sebagai kualitas *fit* data.
2. Interpretasi Klasifikasi (Contoh: Diagnosis)
Jika menggunakan Regresi Logistik (Sessi 10) atau Decision Tree (Sessi 12) untuk mengklasifikasikan diagnosis (0 atau 1):
- Metrik F1-Score (Sessi 11): Jelaskan mengapa Anda menggunakan F1-Score. F1-Score adalah rata-rata harmonis dari Presisi dan Recall, ideal ketika ada ketidakseimbangan kelas.
- Feature Importance (Decision Tree): Jika fitur X1 (misalnya, radius sel) memiliki *importance* tertinggi, ini menunjukkan bahwa radius sel adalah parameter fisik yang paling diskriminatif dalam membedakan diagnosis.
C. Demonstrasi Kode dan Validasi di Colab
Presentasi harus menyertakan demonstrasi singkat Google Colaboratory untuk membuktikan kode berjalan dan hasil yang ditampilkan adalah nyata.
1. Tahapan Demonstrasi Kunci
- Visualisasi Utama: Tampilkan *output* visualisasi EDA yang paling relevan (misalnya, *Box Plot* yang menunjukkan *outliers* yang ditangani, atau *Heatmap* Korelasi).
- Kode Evaluasi: Fokus pada bagian di mana Anda mencetak
classification_reportatau metrik RMSE. Ini adalah bukti kuantitatif kinerja model.
2. Contoh Kode Visualisasi Hasil (Classification Report)
Mengulang dari Sessi 14, visualisasi laporan klasifikasi adalah poin penting untuk dibahas dalam presentasi.
from sklearn.metrics import classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt
# Asumsi: y_test dan y_pred sudah ada dari pemodelan
# y_test: Nilai target sebenarnya (0 atau 1)
# y_pred: Nilai prediksi model (0 atau 1)
print("--- CLASSIFICATION REPORT ---")
print(classification_report(y_test, y_pred))
# Visualisasi Confusion Matrix
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6, 5))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
xticklabels=['Buruk (0)', 'Baik (1)'],
yticklabels=['Buruk (0)', 'Baik (1)'])
plt.title('Confusion Matrix Proyek Akhir')
plt.ylabel('Nilai Sebenarnya')
plt.xlabel('Nilai Prediksi')
plt.show()
# Visualisasi ini sangat membantu audiens memahami
# seberapa sering model membuat False Positive dan False Negative.
D. Sesi Tanya Jawab (Q&A) dan Umpan Balik
Sesi ini adalah kesempatan untuk menguji kedalaman pemahaman Anda. Persiapkan jawaban untuk pertanyaan umum:
1. Pertanyaan Kritis Metodologis
- "Mengapa Anda menggunakan StandardScaler dan bukan MinMaxScaler?" (Jawab dengan menyinggung distribusi data yang mungkin normal atau keberadaan *outliers*).
- "Bagaimana Anda mengatasi Overfitting dalam model Anda?" (Jawab dengan menyebutkan penggunaan max_depth pada Decision Tree, atau teknik Cross-Validation).
- "Dalam konteks fisik data ini, apa yang direpresentasikan oleh error model (RMSE/MAE)?" (Jawab bahwa error adalah **deviasi rata-rata prediksi dari nilai pengamatan sebenarnya**, mirip dengan ketidakpastian pengukuran).
Kunci sukses presentasi adalah justifikasi. Setiap keputusan dalam *pipeline* Data Science harus didukung oleh alasan matematis atau konteks data yang kuat.