# Bibliotheken importieren
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.inspection import permutation_importance
from sklearn.preprocessing import PolynomialFeatures
from sklearn.manifold import TSNE


# Laden des Datensatzes
df = pd.read_csv("KHK_Klassifikation.csv")

df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 918 entries, 0 to 917
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Alter       918 non-null    int64  
 1   Geschlecht  918 non-null    object 
 2   Blutdruck   918 non-null    int64  
 3   Chol        918 non-null    int64  
 4   Blutzucker  918 non-null    int64  
 5   EKG         918 non-null    object 
 6   HFmax       918 non-null    int64  
 7   AP          918 non-null    object 
 8   RZ          918 non-null    float64
 9   KHK         918 non-null    int64  
dtypes: float64(1), int64(6), object(3)
memory usage: 71.8+ KB

df.shape

(918, 10)

# Konvertiere die Variable 'Geschlecht' in eine kategorische Variable
df['Geschlecht'] = df['Geschlecht'].astype('category')

# Konvertiere die Variable 'EKG' in eine kategorische Variable
df['EKG'] = df['EKG'].astype('category')

# Konvertiere die Variable 'AP' in eine kategorische Variable (liegt bereits als kat. Variable vor, jedoch ist der Datentyp 'object')
df['AP'] = df['AP'].astype('category')

# Konvertiere die Variable 'KHK' in eine boolsche Variable
df['KHK'] = df['KHK'].astype('bool')

df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 918 entries, 0 to 917
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   Alter       918 non-null    int64   
 1   Geschlecht  918 non-null    category
 2   Blutdruck   918 non-null    int64   
 3   Chol        918 non-null    int64   
 4   Blutzucker  918 non-null    int64   
 5   EKG         918 non-null    category
 6   HFmax       918 non-null    int64   
 7   AP          918 non-null    category
 8   RZ          918 non-null    float64 
 9   KHK         918 non-null    bool    
dtypes: bool(1), category(3), float64(1), int64(5)
memory usage: 47.1 KB

df.describe()

ax = sns.countplot(data=df, x='KHK')
plt.ylabel("Anzahl")
plt.title("Verteilung der Zielvariable KHK")

# Zahlen und Prozentsätze über den Balken anzeigen
for p in ax.patches:
    height = p.get_height()
    ax.annotate(f'{int(height)}\n({height/df["KHK"].count()*100:.1f}%)', 
                (p.get_x() + p.get_width() / 2., height), 
                ha='center', va='baseline')

plt.show()

# Umwandlung kategorialer Variablen in numerische Werte
df_encoded = pd.get_dummies(df, drop_first=True)

# Korrelation der Zielvariable KHK mit den anderen Features
khk_corr = df_encoded.corr()["KHK"].drop("KHK")

# Visualisierung der Korrelationen
fig, ax = plt.subplots(figsize=(8, 6))
sns.barplot(x=khk_corr.values, y=khk_corr.index, hue=khk_corr.index, palette="coolwarm", dodge=False, ax=ax)
ax.set_title("Korrelation der Features mit KHK")
ax.set_xlabel("Korrelationskoeffizient")

# Zahlen über den Balken anzeigen
for i in ax.containers:
    ax.bar_label(i, fmt='%.2f')

# Plot speichern - wird in Abschnitt 6.1 benötigt
khk_corr_plot = fig

# Features und Zielvariable definieren
X = df_encoded.drop(columns=["KHK"])
y = df_encoded["KHK"]

# Aufteilen in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1, stratify=y)

# Datensatz standardisieren
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

pd.concat([X_train, y_train], axis=1).head()

pd.concat([X_test, y_test], axis=1).head()

# PCA durchführen
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_train_scaled)

# Visualisierung
plt.figure(figsize=(8, 6))
sns.scatterplot(x=X_pca[:, 0], y=X_pca[:, 1], hue=y_train)
plt.title("PCA-Visualisierung der Trainingsdaten")
plt.show()

# t-SNE mit 2 Komponenten
tsne = TSNE(n_components=2, random_state=1, perplexity=30, max_iter=1000)
X_tsne = tsne.fit_transform(X_train_scaled)

# Visualisierung
plt.figure(figsize=(8, 6))
sns.scatterplot(x=X_tsne[:, 0], y=X_tsne[:, 1], hue=y_train, alpha=0.8)
plt.title("t-SNE-Visualisierung der Trainingsdaten")
plt.legend(title="KHK", loc="best")
plt.show()

# kNN-Modell
knn = KNeighborsClassifier(n_neighbors=4)
knn.fit(X_train_scaled, y_train)
y_pred_knn = knn.predict(X_test_scaled)

# SVM-Modell
svm = SVC(kernel="rbf")
svm.fit(X_train_scaled, y_train)
y_pred_svm = svm.predict(X_test_scaled)

# Logistisches Regressionsmodell
log_reg = LogisticRegression()
log_reg.fit(X_train_scaled, y_train)
y_pred_log = log_reg.predict(X_test_scaled)

# Entscheidungsbaum-Modell
tree = DecisionTreeClassifier(max_depth=4, ccp_alpha=0.01, random_state=1)
tree.fit(X_train_scaled, y_train)
y_pred_tree = tree.predict(X_test_scaled)

# Neuronales Netz-Modell
mlp = MLPClassifier(hidden_layer_sizes=(50, 50), max_iter=2000)
mlp.fit(X_train_scaled, y_train)
y_pred_mlp = mlp.predict(X_test_scaled)

# Random Forest-Modell
forest = RandomForestClassifier(n_estimators=100, random_state=1)
forest.fit(X_train_scaled, y_train)
y_pred_forest = forest.predict(X_test_scaled)

# Vergleich der Modelle
model_results = {
    "kNN": accuracy_score(y_test, y_pred_knn),
    "SVM": accuracy_score(y_test, y_pred_svm),
    "Logistische Regression": accuracy_score(y_test, y_pred_log),
    "Entscheidungsbaum": accuracy_score(y_test, y_pred_tree),
    "Neuronales Netz": accuracy_score(y_test, y_pred_mlp),
    "Random Forest": accuracy_score(y_test, y_pred_forest),
}

# Darstellung der Ergebnisse
results_df = pd.DataFrame(list(model_results.items()), columns=["Modell", "Genauigkeit"])
results_df = results_df.sort_values(by="Genauigkeit", ascending=False)

# Visualisierung der Genauigkeit
plt.figure(figsize=(8, 6))
ax = sns.barplot(x="Genauigkeit", y="Modell", data=results_df)
plt.title("Modellvergleich: Genauigkeit")

# Exakte Werte anzeigen
for i in ax.containers:
    ax.bar_label(i, fmt='%.4f')

plt.show()

svm_class = SVC(kernel='rbf', random_state=1)
param_grid = {'C': [1, 5, 10, 50, 100, 200, 300],
              'gamma': [0.0001, 0.0005, 0.001, 0.005, 0.01, 0.1, 1, 1.5]}
grid = GridSearchCV(svm_class, param_grid, cv= StratifiedKFold(n_splits=10))
grid.fit(X_train_scaled, y_train)

grid.best_params_

{'C': 1, 'gamma': 0.01}

def SVM(C, gamma): 
    # SVM-Modell mit den angegebenen Parametern
    svm = SVC(C=C, gamma=gamma, kernel="rbf", random_state=1)
    svm.fit(X_train_scaled, y_train)
    y_pred_svm = svm.predict(X_test_scaled)

    # Genauigkeit berechnen & ausgeben
    print(accuracy_score(y_test, y_pred_svm))

SVM(1, 0.01)

0.8043478260869565

param_grid = {'C': [0.6, 0.7, 0.85, 1, 1.5, 2, 2.5],
              'gamma': [0.004, 0.006, 0.008, 0.01, 0.012, 0.014, 0.016, 0.018]}
grid = GridSearchCV(svm_class, param_grid, cv= StratifiedKFold(n_splits=10))
grid.fit(X_train_scaled, y_train)
grid.best_params_

{'C': 0.85, 'gamma': 0.014}

SVM(0.85, 0.014)

0.8043478260869565

# Visualize the results of the grid search
results = pd.DataFrame(grid.cv_results_)
scores = results.pivot(index="param_C", columns="param_gamma", values="mean_test_score")

plt.figure(figsize=(8, 6))
sns.heatmap(scores, annot=True, fmt=".3f", cmap="viridis")
plt.title("Grid Search Scores")
plt.xlabel("Gamma")
plt.ylabel("C")
plt.show()

SVM(1, 0.012)
SVM(0.7, 0.016)

0.8043478260869565

0.8152173913043478

def SVM_Optimized(X_train_scaled, X_test_scaled): 
    # SVM-Modell mit den angegebenen Parametern
    svm = SVC(C=0.7, gamma=0.016, kernel="rbf", random_state=1)
    svm.fit(X_train_scaled, y_train)
    y_pred_svm = svm.predict(X_test_scaled)

    # Genauigkeit berechnen & ausgeben
    print(accuracy_score(y_test, y_pred_svm))

# Interaktionstermini erzeugen
poly = PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)
X_train_poly = poly.fit_transform(X_train_scaled)
X_test_poly = poly.transform(X_test_scaled)

SVM_Optimized(X_train_poly, X_test_poly)

0.7717391304347826

# PCA anwenden
pca = PCA(n_components=10)  # 10 Hauptkomponenten
X_train_pca = pca.fit_transform(X_train_scaled)
X_test_pca = pca.transform(X_test_scaled)

SVM_Optimized(X_train_pca, X_test_pca)

0.8152173913043478

khk_corr_plot # Wir verwenden den gespeicherten Plot aus Abschnitt 3.3

# Convert the scaled training set back to a DataFrame for easier correlation calculation
X_train_scaled_df = pd.DataFrame(X_train_scaled, columns=X.columns)

# Calculate the correlation matrix
correlation_matrix_scaled = X_train_scaled_df.corr()

# Summe der absoluten Korrelationswerte jeder Variablen berechnen
correlation_sums = correlation_matrix_scaled.abs().sum().sort_values()

print(correlation_sums)

# Display the correlation matrix
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix_scaled, annot=True, fmt=".2f")
plt.title("Correlation Matrix of Scaled Training Set")
plt.show()

Geschlecht_M    2.009811
Blutdruck       2.125782
Blutzucker      2.164855
Chol            2.187446
RZ              2.370236
EKG_Normal      2.411709
EKG_ST          2.599268
AP_Y            2.617020
HFmax           2.883610
Alter           2.910357
dtype: float64

# Berechnung der Permutationsbedeutung
result = permutation_importance(svm, X_test_scaled, y_test, n_repeats=10, random_state=1)

# Visualisierung der Permutationsbedeutung
sorted_idx = result.importances_mean.argsort()

plt.figure(figsize=(10, 6))
plt.barh(range(len(sorted_idx)), result.importances_mean[sorted_idx], xerr=result.importances_std[sorted_idx])
plt.yticks(range(len(sorted_idx)), X.columns[sorted_idx])
plt.xlabel("Permutationsbedeutung")
plt.title("Feature Importance basierend auf Permutationsbedeutung")
plt.show()

# Random Forest Modell trainieren
rf = RandomForestClassifier(n_estimators=1000, random_state=1)
rf.fit(X_train_scaled, y_train)

# Berechnung der Feature Importance
importances = rf.feature_importances_
std = np.std([tree.feature_importances_ for tree in rf.estimators_], axis=0)
indices = np.argsort(importances)

# Visualisierung der Feature Importance
plt.figure(figsize=(10, 6))
plt.barh(range(len(indices)), importances[indices], xerr=std[indices])
plt.yticks(range(len(indices)), X.columns[indices])
plt.xlabel("Feature Importance")
plt.title("Feature Importance basierend auf Random Forest")
plt.show()

# Gradient Boosting Modell trainieren
gb = GradientBoostingClassifier(n_estimators=100, random_state=1)
gb.fit(X_train_scaled, y_train)

# Berechnung der Feature Importance
importances_gb = gb.feature_importances_
indices_gb = np.argsort(importances_gb)

# Visualisierung der Feature Importance
plt.figure(figsize=(10, 6))
plt.barh(range(len(indices_gb)), importances_gb[indices_gb])
plt.yticks(range(len(indices_gb)), X.columns[indices_gb])
plt.xlabel("Feature Importance")
plt.title("Feature Importance basierend auf Gradient Boosting")
plt.show()

def evaluate_feature_weights(weights):
    X_train_weighted = X_train_scaled.copy()
    X_test_weighted = X_test_scaled.copy()
    
    for feature, weight in weights.items():
        feature_index = X.columns.get_loc(feature)
        X_train_weighted[:, feature_index] *= weight
        X_test_weighted[:, feature_index] *= weight
    
    svm = SVC(C=0.7, gamma=0.016, kernel="rbf", random_state=1)
    svm.fit(X_train_weighted, y_train)
    y_pred_svm = svm.predict(X_test_weighted)
    
    print(accuracy_score(y_test, y_pred_svm))

# Manuelle Gewichtung der Features
feature_weights = {
    'Alter': 1.5,
    'Blutdruck': 0.0,
    'Chol': 1.0,
    'Blutzucker': 0.5,
    'HFmax': 0.5,
    'RZ': 1.5,
    'Geschlecht_M': 2.0,
    'EKG_Normal': 0.0,
    'EKG_ST': 0.0,
    'AP_Y': 1.5
}

evaluate_feature_weights(feature_weights)

0.8206521739130435

# Manuelle Gewichtung der Features
feature_weights = {
    'Alter': 1.4,
    'Blutdruck': 0.0,
    'Chol': 0.9,
    'Blutzucker': 0.4,
    'HFmax': 0.4,
    'RZ': 1.4,
    'Geschlecht_M': 1.9,
    'EKG_Normal': 0,
    'EKG_ST': 2,
    'AP_Y': 1.3
}

accuracy = evaluate_feature_weights(feature_weights)

0.8315217391304348

def test_optimized_svm_with_feature_weights(X_train_scaled, X_test_scaled, y_train, y_test):
    feature_weights = {
        'Alter': 1.4,
        'Blutdruck': 0.0,
        'Chol': 0.9,
        'Blutzucker': 0.4,
        'HFmax': 0.4,
        'RZ': 1.4,
        'Geschlecht_M': 1.9,
        'EKG_Normal': 0,
        'EKG_ST': 2,
        'AP_Y': 1.3
    }
    
    X_train_weighted = X_train_scaled.copy()
    X_test_weighted = X_test_scaled.copy()
    
    for feature, weight in feature_weights.items():
        feature_index = X.columns.get_loc(feature)
        X_train_weighted[:, feature_index] *= weight
        X_test_weighted[:, feature_index] *= weight
    
    svm = SVC(C=0.7, gamma=0.016, kernel="rbf", random_state=1)
    svm.fit(X_train_weighted, y_train)
    y_pred_svm = svm.predict(X_test_weighted)
    
    return accuracy_score(y_test, y_pred_svm)

def test_optimized_svm(X_train_scaled, X_test_scaled, y_train, y_test):
    svm = SVC(C=0.7, gamma=0.016, kernel="rbf", random_state=1)
    svm.fit(X_train_scaled, y_train)
    y_pred_svm = svm.predict(X_test_scaled)
    
    return accuracy_score(y_test, y_pred_svm)

def test_svm(X_train_scaled, X_test_scaled, y_train, y_test):
    svm = SVC(kernel="rbf", random_state=1)
    svm.fit(X_train_scaled, y_train)
    y_pred_svm = svm.predict(X_test_scaled)
    
    return accuracy_score(y_test, y_pred_svm)

def svm_vergleich(random_states_from_0_to):
    # Listen zur Speicherung der Genauigkeiten
    accuracies_svm = []
    accuracies_optimized_svm = []
    accuracies_optimized_svm_with_weights = []

    # Schleife über die verschiedenen Random States
    for random_state in range(random_states_from_0_to): 
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_state, stratify=y)
        
        # Daten standardisieren
        X_train_scaled = scaler.fit_transform(X_train)
        X_test_scaled = scaler.transform(X_test)
        
        # Unoptimierte SVM testen
        accuracy_svm = test_svm(X_train_scaled, X_test_scaled, y_train, y_test)
        accuracies_svm.append(accuracy_svm)
        
        # Optimierte SVM testen
        accuracy_optimized_svm = test_optimized_svm(X_train_scaled, X_test_scaled, y_train, y_test)
        accuracies_optimized_svm.append(accuracy_optimized_svm)
        
        # Optimierte SVM mit Feature-Gewichtungen testen
        accuracy_optimized_svm_with_weights = test_optimized_svm_with_feature_weights(X_train_scaled, X_test_scaled, y_train, y_test)
        accuracies_optimized_svm_with_weights.append(accuracy_optimized_svm_with_weights)
    
    # Min-, Mittel- und Max-Genauigkeiten berechnen
    min_accuracies = [np.min(accuracies_svm), np.min(accuracies_optimized_svm), np.min(accuracies_optimized_svm_with_weights)]
    mean_accuracies = [np.mean(accuracies_svm), np.mean(accuracies_optimized_svm), np.mean(accuracies_optimized_svm_with_weights)]
    max_accuracies = [np.max(accuracies_svm), np.max(accuracies_optimized_svm), np.max(accuracies_optimized_svm_with_weights)]
    
    # Daten als Plot anzeigen
    plt.figure(figsize=(10, 6))
    x_labels = ['Unoptimierte SVM', 'Optimierte SVM', 'Optimierte SVM mit Gewichtungen']
    accuracies_df = pd.DataFrame({
        'Modell': x_labels,
        'Minimale Genauigkeit': min_accuracies,
        'Mittlere Genauigkeit': mean_accuracies,
        'Maximale Genauigkeit': max_accuracies
    })

    accuracies_df = accuracies_df.melt(id_vars='Modell', var_name='Metrik', value_name='Genauigkeit')

    ax = sns.barplot(x='Modell', y='Genauigkeit', hue='Metrik', data=accuracies_df)
    
    # Exakte Werte im Plot anzeigen
    for container in ax.containers:
        ax.bar_label(container, fmt='%.3f')
    
    plt.xlabel('Modell')
    plt.ylabel('Genauigkeit')
    plt.title('Vergleich der SVM-Modelle')
    plt.legend(title='Metrik')
    plt.show()

svm_vergleich(50)

	Alter	Blutdruck	Chol	Blutzucker	HFmax	RZ
count	918.000000	918.000000	918.000000	918.000000	918.000000	918.000000
mean	53.510893	132.396514	198.799564	0.233115	136.809368	0.887364
std	9.432617	18.514154	109.384145	0.423046	25.460334	1.066570
min	28.000000	0.000000	0.000000	0.000000	60.000000	-2.600000
25%	47.000000	120.000000	173.250000	0.000000	120.000000	0.000000
50%	54.000000	130.000000	223.000000	0.000000	138.000000	0.600000
75%	60.000000	140.000000	267.000000	0.000000	156.000000	1.500000
max	77.000000	200.000000	603.000000	1.000000	202.000000	6.200000

Klassifikation von KHK-Risiken anhand medizinischer Daten¶

1. Import notwendiger Bibliotheken und Laden der Daten¶

2. Übersicht & Korrektur des Datensatzes¶

2.1 Datentypen, Spaltennamen & Inhalt¶

2.2 Dimensionen & Anzahl der Datenpunkte¶

2.3 Korrektur¶

2.3.1 Übersicht über den korrigierten Datensatz¶

3. Explorative Datenanalyse¶

3.1 Statistische Übersicht¶

3.2 Verteilung der Zielvariable KHK¶

3.3 Korrelation der Features¶

4. Datenvorbereitung¶

4.1 PCA: Dimensionsreduktion und Visualisierung¶

5. Klassifikationsverfahren¶

k-Nearest Neighbors (kNN)¶

Support Vector Machines (SVM)¶

Logistische Regression¶

Entscheidungsbaum¶

Neuronales Netz¶

Random Forest¶

5.1 Vergleich der Modelle¶

6. Optimierung der Modelle¶

6.1 Automatic Feature Engineering¶

6.2 Manual Feature Engineering¶

7. Auswertung und Fazit¶

7.1 Auswertung¶

7.2 Fazit¶

8. Quellen¶

	Alter	Geschlecht	Blutdruck	Chol	EKG	HFmax	AP	RZ	KHK
0	40	M	140	289	Normal	172	N	0.0	0
1	49	F	160	180	Normal	156	N	1.0	1
2	37	M	130	283	ST	98	N	0.0	0
3	48	F	138	214	Normal	108	Y	1.5	1
4	54	M	150	195	Normal	122	N	0.0	0

	Alter	Geschlecht	Blutdruck	Chol	EKG	HFmax	AP	RZ	KHK
0	40	M	140	289	Normal	172	N	0.0	False
1	49	F	160	180	Normal	156	N	1.0	True
2	37	M	130	283	ST	98	N	0.0	False
3	48	F	138	214	Normal	108	Y	1.5	True
4	54	M	150	195	Normal	122	N	0.0	False

Parameter	Wert
C	0.7
Gamma	0.016
Kernel	rbf
Random State	1