Sessi 1: Pengantar Big Data dan Data Sains
A. Definisi dan Konteks Ilmiah Big Data
Big Data didefinisikan secara umum sebagai data yang memiliki tantangan signifikan dalam pemrosesan tradisional karena ukuran dan kompleksitasnya. Bagi mahasiswa Fisika dan Matematika, fokusnya adalah pada data yang dihasilkan dari observasi, eksperimen, dan simulasi numerik.
Contoh spesifik di bidang Anda:
- Fisika Partikel: Data tabrakan (collision data) dari akselerator partikel, di mana setiap tabrakan menghasilkan Megabyte (MB) data, dan jutaan tabrakan terjadi per detik.
- Astrofisika: Data citra resolusi tinggi dari teleskop seperti James Webb Space Telescope (JWST) yang memerlukan pemrosesan skala Petabyte (PB), di mana 1 PB = 1015 byte.
- Matematika/Simulasi: Keluaran dari model persamaan diferensial parsial (PDP) untuk prediksi iklim atau fluida, yang memerlukan jutaan variabel terikat (dependent variables) di setiap langkah waktu ti.
B. Karakteristik Kuantitatif Big Data (The 5 V's)
Big Data memiliki lima karakteristik utama, dengan penekanan pada aspek kuantitatif:
- Volume: Skala data yang ekstrem. Misal, jika kita memproses data dalam N iterasi waktu, dan setiap iterasi memiliki M variabel, total volumenya berbanding lurus dengan N × M.
- Velocity: Kecepatan data tiba. Kecepatan transfer data sensor R diukur dalam (data / detik). Jika waktu pemrosesan τ lebih besar dari waktu kedatangan data (τ > 1/R), kita menghadapi masalah velocity.
- Variety: Keberagaman format data. Mulai dari numerik, kategorikal, hingga data spasial (seperti koordinat x, y, z).
- Veracity: Kualitas dan kebenaran data. Dalam eksperimen, ini sering diukur dengan ketidakpastian pengukuran atau deviasi standar (σ), mencerminkan keandalan data.
- Value: Nilai yang diekstrak. Ini adalah output dari Fungsi Tujuan f(D) yang kita optimasi dari data D.
C. Data Sains: Metodologi dan Fondasi Matematis
Data Sains adalah proses terstruktur untuk mengekstrak wawasan. Ini sangat bergantung pada kemampuan Anda sebagai mahasiswa matematika/fisika untuk memahami algoritma dan asumsi yang mendasarinya.
Siklus Data Sains (CRISP-DM)
Kita akan fokus pada tahap inti:
- Persiapan Data: Tahap ini mencakup Normalisasi, yang mengubah nilai fitur X menjadi skala 0 hingga 1 menggunakan rumus: Xnorm = (X - Xmin) / (Xmax - Xmin)
- Pemodelan: Memilih model statistik (seperti Regresi Linear, di mana hubungan antar variabel X dan Y diwakili oleh: Y = β0 + β1X1 + ε di mana β0 adalah *intercept* dan ε adalah *error* atau residu.
D. Lingkungan Kerja: Python dan Google Colaboratory
Kita akan menggunakan Python dengan lingkungan Google Colaboratory (Colab). Colab penting karena memungkinkan kita mengakses dataset berskala besar dari UCI atau Kaggle dan memprosesnya tanpa keterbatasan perangkat keras pribadi.
Contoh Akses dan Setup di Google Colab
Di Sessi 2, kita akan memuat data, tetapi Sessi 1 difokuskan pada memastikan lingkungan siap. Kode di bawah ini adalah langkah wajib pertama di setiap *notebook* Colab.
# Import library fondasi untuk Data Sains
import pandas as pd
import numpy as np
# Konfirmasi bahwa library berhasil dimuat
print("Library Pandas dan NumPy berhasil diimpor.")
# Di Colab, Anda dapat memverifikasi ketersediaan hardware komputasi
# Contoh: Perintah untuk memeriksa apakah GPU/TPU tersedia (opsional)
# import tensorflow as tf
# print("Ketersediaan GPU/TPU:", tf.config.list_physical_devices('GPU'))