import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from google.colab import drive
drive.mount('/content/drive')

!gdown 1VIa6to3xMpMbCp2JQKzlGS5LZZ1AsE_H #https://www.kaggle.com/hesh97/titanicdataset-traincsv

# Učitati bazu u DataFrame
df_train = pd.read_csv('titanic_data.csv')

df_train.shape

df_train.info()

df_train.head(10)

# proveriti broj i udeo nedostajućih podataka za svako od obeležja

print(df_train.isna().sum())
print(df_train.isna().sum() / df_train.shape[0]  * 100)


print(df_train[df_train['Embarked'].isna()])
## only row 61 and 829 do not have an embarked field
##I can probably add those 2 entries manualy or drop them

## za Cabin nam nedostaje >70% pa to moramo odbacit jer nemamo sanse da nekako fill-ujemo na logican nacin
## za Age ke ~20% nedostajucih pa mogu da ubacim median value jer svakako imamo 50-50 sansu da je ta osoba zapravo bila musko/zensko

# odbacivanje obeležja
df_train.drop(columns=['Cabin'],inplace=True)
df_train.drop(['PassengerId', 'Name', 'Ticket'], inplace= True, axis = 1) ## ovo su dodatno izbacili

# odbacivanje uzoraka
indexes_with_missing_cabin = df_train[df_train['Embarked'].isna()].index
# print(df_train.drop(indexes_with_missing_cabin))
df_train.drop(indexes_with_missing_cabin,inplace=True)

# dopuna vrednosti
df_train['Age'] = df_train['Age'].fillna(df_train['Age'].median())

# ponovna provera nedostajućih podataka
print(df_train.isna().sum())

# print(df_train[df_train['Survived'] == 1]) ## 340 survived
# print(df_train[df_train['Survived'] == 0]) ## 549 died
# print(df_train[df_train['Survived'] == 0]['Age']) ## age of died ones
plt.hist(df_train[df_train['Survived'] == 0]['Age'],alpha=0.5, label='died')
plt.hist(df_train[df_train['Survived'] == 1]['Age'],alpha=0.5, label='survived')
plt.ylabel('count')
plt.xlabel('age')
plt.legend()
plt.show()

## Prikazati uporedo raspodele starosti preživelih i preminulih putnika.
## Takođe, prikazati raspodelu cene karte za te dve grupe putnika.
plt.hist(df_train[df_train['Survived'] == 0]['Fare'],alpha=0.5, label='died')
plt.hist(df_train[df_train['Survived'] == 1]['Fare'],alpha=0.5, label='survived')
plt.ylabel('count')
plt.xlabel('fare price')
plt.legend()
plt.show()

## Prikazati zavisnost cene karte od starosti putnika i od putničke klase.
# # print(df_train.columns) ## 'Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare','Embarked'
# print(df_train['Pclass'].unique()) ## [3 1 2]
# print(df_train['SibSp'].unique()) ## [1 0 3 4 2 5 8]
# print(df_train['Parch'].unique()) ## [0 1 2 5 3 4 6]
# print(df_train['Embarked'].unique()) ## ['S' 'C' 'Q']

plt.scatter(x=df_train['Age'], y=df_train['Fare'])
plt.xlabel('Age')
plt.ylabel('Fare')
plt.show()

## scatter plot is SHIT
plt.scatter(x=df_train['Age'], y=df_train['Pclass'])
plt.xlabel('Age')
plt.ylabel('Pclass')
plt.show()


## Da li predstavljanje obe navedene zavisnosti grafikom rasipanja donosi korisne informacije?
## Nije dobra ideja koristit scatter plot jer je shit za ovo

## trying to make a graph that shows how many people of what age bought which class
## I failed
# tmp = pd.DataFrame(df_train['Age'].unique())
# print( df_train[df_train['Pclass'] == 1].loc[:,['Age','Pclass']].groupby('Age').count() )
# print( df_train[df_train['Pclass'] == 1].loc[:,['Age','Pclass']].groupby('Age').count().shape )
# print(df_train['Age'].unique().shape)
# print(tmp)

## Kojom vrstom grafika je bolje predstaviti drugu traženu zavisnost?
# print(df_train[df_train['Pclass'] == 1]['Age'])
plt.boxplot( [ df_train[df_train['Pclass'] == 1]['Age'], df_train[df_train['Pclass'] == 2]['Age'], df_train[df_train['Pclass'] == 3]['Age'] ] )
plt.xlabel('Pclass')
plt.ylabel('Age')
plt.show()

## scatter je shit
plt.scatter(x=df_train['Pclass'], y=df_train['Fare'])
plt.xlabel('Pclass')
plt.ylabel('Fare')
plt.show()


plt.boxplot( [ df_train[df_train['Pclass'] == 1]['Fare'], df_train[df_train['Pclass'] == 2]['Fare'], df_train[df_train['Pclass'] == 3]['Fare'] ] )
plt.xlabel('Pclass')
plt.ylabel('Fare')
plt.show()

## Proveriti šta prikazuje funkcija pairplot primenjena na ceo DataFrame.
sns.pairplot(df_train)

# napraviti listu numeričkih obeležja
numerical_feats = df_train.dtypes[df_train.dtypes == 'float64' ].index
print( numerical_feats)

print(df_train[numerical_feats].corr())

# prikazati korelacionu matricu toplotnom mapom
sns.heatmap(df_train[numerical_feats].corr())
plt.show();

sns.set()
plt.figure(figsize=(5,5))
sns.pairplot(df_train, height = 2.5)
plt.show();

categorical_feats = np.concatenate((df_train.dtypes[df_train.dtypes == "int64"].index, df_train.dtypes[df_train.dtypes == "object"].index))
print("Number of Categorical features: ", len(categorical_feats))
print("Categorical features: ", categorical_feats)
for catg in list(categorical_feats) :
    print(df_train[catg].value_counts())
    print('#'*50)

pd.crosstab(df_train['Pclass'],df_train['Sex']).style.background_gradient(cmap='summer_r')

pd.crosstab(df_train['Pclass'],df_train['Survived']).style.background_gradient(cmap='summer_r')

sns.countplot(x='Pclass',hue='Survived',data=df_train)

sns.violinplot(x='Sex', y='Age', data=df_train)

sns.barplot(x='Sex',y='Fare',hue='Survived',data=df_train)

hist_a=plt.hist(df_train.loc[df_train['Sex']=='male','Age'], bins=np.arange(0,100,5), alpha=.50, density=True, label='male')
#fig = plt.figure()
hist_b=plt.hist(df_train.loc[df_train['Sex']=='female','Age'], bins=np.arange(0,100,5), alpha=.50, density=True, label='female')
plt.legend()

!jupyter nbconvert --to html "/content/drive/MyDrive/Colab Notebooks/zadatak2_EDA_moja_rjesenja.ipynb"

1.1 Upoznavanje sa bazom¶

shape, info, head¶

1.4 Međusobni odnosi (korelacija) numeričkih varijabli¶