Machine Learning 2026: Scikit-Learn ve TensorFlow ile Veri Analizi ve Model Eğitimi Rehberi

Giriş

Machine Learning (ML), makinelerin veri üzerinden öğrenerek tahmin yapma ve karar alma yeteneğidir. 2026 yılında big data patlaması ile veri analizi her sektörde kritik hale geldi. E-ticaret firmaları müşteri churn’ünü öngörüyor, bankalar fraud tespiti yapıyor, sağlık sektörü hastalık teşhisini hızlandırıyor. Bu rehberde Scikit-Learn ve TensorFlow kullanarak sıfırdan model eğitimi göstereceğiz. Teknik ama anlaşılır dilde, bol kod snippet’iyle ilerleyeceğiz. Kaliteweb’in VPS’leriyle modellerinizi üretimde çalıştırabileceksiniz.

ML’nin önemi: 2026’da veri miktarı 2020’ye göre 50 kat arttı. Doğru analiz olmadan rekabet etmek imkânsız.

Temel Kavramlar

Supervised Learning: Etiketli veri ile öğrenme. Örnek: ev fiyat tahmini (regresyon), spam tespiti (classification).

Unsupervised Learning: Etiketsiz veri ile kümeleme veya boyut indirgeme. Örnek: müşteri segmentasyonu.

Reinforcement Learning: Ödül-ceza ile öğrenme. Örnek: oyun AI’ları.

Feature engineering: Eksik değer doldurma, one-hot encoding, polynomial features.

Overfitting: Model eğitim verisini ezberler, testte kötü performans.

Underfitting: Model çok basit, hiçbir veriyi öğrenemez.

Çözüm: Cross-validation, regularization (L1/L2), early stopping.

Veri Hazırlama

Pandas ve NumPy ile başlayın.


import pandas as pd

import numpy as np

from sklearn.preprocessing import StandardScaler

df = pd.read_csv('veri.csv')

df = df.dropna()  # eksik değer temizle

df = pd.get_dummies(df, columns=['kategori'])  # one-hot

scaler = StandardScaler()

df[['yas', 'gelir']] = scaler.fit_transform(df[['yas', 'gelir']])

Adım adım:

Veri yükle ve incele (df.head(), df.describe())
Eksik değerleri median ile doldur
Outlier’ları IQR yöntemiyle temizle
Scaling ve encoding yap

Scikit-Learn ile Pratik Modeller

1. Lineer Regresyon

Boston housing dataset (veya Kaggle ev fiyatları).


from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error

X = df.drop('fiyat', axis=1)

y = df['fiyat']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = LinearRegression()

model.fit(X_train, y_train)

pred = model.predict(X_test)

print(mean_squared_error(y_test, pred))

2. Karar Ağaçları

Karar ağacı overfitting’i önlemek için max_depth=5 kullanın.


from sklearn.tree import DecisionTreeRegressor

tree = DecisionTreeRegressor(max_depth=5)

tree.fit(X_train, y_train)

3. KNN

K=5 ile sınıflandırma.


from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=5)

knn.fit(X_train, y_train)

4. SVM

Kernel=’rbf’ ile.


from sklearn.svm import SVC

svm = SVC(kernel='rbf', C=1.0)

svm.fit(X_train, y_train)

Her model için GridSearchCV ile hiperparametre optimizasyonu yapın.

TensorFlow/Keras ile Derin Öğrenme

MNIST dataset ile CNN.


import tensorflow as tf

from tensorflow.keras import layers, models

model = models.Sequential([

    layers.Conv2D(32, (3,3), activation='relu', input_shape=(28,28,1)),

    layers.MaxPooling2D((2,2)),

    layers.Flatten(),

    layers.Dense(128, activation='relu'),

    layers.Dense(10, activation='softmax')

])

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

model.fit(train_images, train_labels, epochs=10, validation_data=(test_images, test_labels))

Iris dataset ile basit RNN örneği de eklenebilir. 2026’da TensorFlow 2.16+ ile AutoKeras otomatik model seçimi destekliyor.

Model Değerlendirme

Accuracy, Precision, Recall, F1-Score
Cross-validation: cross_val_score(model, X, y, cv=5)
ROC Curve: roc_auc_score ve matplotlib ile grafik

Checklist – Veri Pipeline

[ ] Veri temizleme tamam
[ ] Feature scaling yapıldı
[ ] Train/test split %80/20
[ ] Cross-validation uygulandı
[ ] Overfitting kontrol edildi (train vs test farkı <5%)
[ ] Metric’ler kaydedildi

Deployment ve Üretimleştirme

MLflow ile model takibi:


import mlflow

mlflow.start_run()

mlflow.sklearn.log_model(model, "model")

mlflow.log_metric("accuracy", 0.92)

Docker ile serving:


FROM python:3.11-slim

COPY model.pkl .

RUN pip install fastapi uvicorn joblib

CMD ["uvicorn", "app:app", "--host", "0.0.0.0"]

Hosting Entegrasyonu

Kaliteweb GPU destekli VPS veya bulut sunucularında modellerinizi çalıştırın.

VPS paketi alın (en az 16GB RAM, NVIDIA GPU)
CUDA 12.4 + TensorFlow-GPU kurun
Docker Compose ile model container’ını ayağa kaldırın
Kaliteweb’in limitsiz bant genişliği ile API’yi 7/24 yayınlayın

Örnek komut: docker run -p 8000:8000 my-ml-model

Etik Konular

Bias: Eğitim verisi dengesizse model ayrımcılık yapar. Çözüm: Fairlearn kütüphanesi.

Privacy: GDPR/KVKK için differential privacy (TensorFlow Privacy).

Şeffaflık: SHAP veya LIME ile model kararlarını açıklayın.

Yaygın Hatalar ve Optimizasyon

Hata 1: Tüm veriyi train’e koymak → overfitting.

Hata 2: Hiperparametre tuning yapmamak.

Optimizasyon: Early stopping, learning rate scheduler, ensemble (Random Forest + XGBoost).

2026 ipucu: AutoML araçları (Google Vertex AI, H2O) ile zaman kazanın.

Gerçek Dünya Örnekleri

Satış tahmini: Scikit-Learn ile zaman serisi regresyon.
Anomaly detection: Isolation Forest ile kredi kartı sahtekarlığı.
Görüntü sınıflandırma: TensorFlow CNN ile ürün fotoğraflarından stok kontrolü.