Sessi 1: Pengantar Big Data dan Data Sains

A. Definisi dan Konteks Ilmiah Big Data

Big Data didefinisikan secara umum sebagai data yang memiliki tantangan signifikan dalam pemrosesan tradisional karena ukuran dan kompleksitasnya. Bagi mahasiswa Fisika dan Matematika, fokusnya adalah pada data yang dihasilkan dari observasi, eksperimen, dan simulasi numerik.

Contoh spesifik di bidang Anda:

B. Karakteristik Kuantitatif Big Data (The 5 V's)

Big Data memiliki lima karakteristik utama, dengan penekanan pada aspek kuantitatif:

C. Data Sains: Metodologi dan Fondasi Matematis

Data Sains adalah proses terstruktur untuk mengekstrak wawasan. Ini sangat bergantung pada kemampuan Anda sebagai mahasiswa matematika/fisika untuk memahami algoritma dan asumsi yang mendasarinya.

Siklus Data Sains (CRISP-DM)

Kita akan fokus pada tahap inti:

  1. Persiapan Data: Tahap ini mencakup Normalisasi, yang mengubah nilai fitur X menjadi skala 0 hingga 1 menggunakan rumus: Xnorm = (X - Xmin) / (Xmax - Xmin)
  2. Pemodelan: Memilih model statistik (seperti Regresi Linear, di mana hubungan antar variabel X dan Y diwakili oleh: Y = β0 + β1X1 + ε di mana β0 adalah *intercept* dan ε adalah *error* atau residu.

D. Lingkungan Kerja: Python dan Google Colaboratory

Kita akan menggunakan Python dengan lingkungan Google Colaboratory (Colab). Colab penting karena memungkinkan kita mengakses dataset berskala besar dari UCI atau Kaggle dan memprosesnya tanpa keterbatasan perangkat keras pribadi.

Contoh Akses dan Setup di Google Colab

Di Sessi 2, kita akan memuat data, tetapi Sessi 1 difokuskan pada memastikan lingkungan siap. Kode di bawah ini adalah langkah wajib pertama di setiap *notebook* Colab.

# Import library fondasi untuk Data Sains
import pandas as pd
import numpy as np

# Konfirmasi bahwa library berhasil dimuat
print("Library Pandas dan NumPy berhasil diimpor.")

# Di Colab, Anda dapat memverifikasi ketersediaan hardware komputasi
# Contoh: Perintah untuk memeriksa apakah GPU/TPU tersedia (opsional)
# import tensorflow as tf
# print("Ketersediaan GPU/TPU:", tf.config.list_physical_devices('GPU'))