25 Mart 2022 Cuma

Feature engineering - Verilerin düzenlenmesi

Feature engineering'in tam Türkçesini bilmiyorum. (belki veri/nitelik/özellik yönetimi denebilir)

Bu post'ta eksik veya bir şekilde tamamlanması ya da dönüştürülmesi gereken verilerin nasıl işlenebileceğiyle ilgili örnekleri koyacağım. Sanırım ağırlıklı olarak python kodları olacak..


Finding Missing Values - Eksik verileri bulmak

Eksik verilerin toplamını bulmak:

data.isnull().sum()

Belirli bir kolondaki eksik verileri bulmak:

(data.isnull().sum())['the_column_in_question']


Eksik verileri silmek - Dropping null values:

.

.

.

.


Belirli bir kolondaki eksik verileri o kolon temelinde tamamlamak - Imputing missing values in a certain column based on that column:

(burada median'le tamamlanmış ama mesela mean kullanmak da bir seçenek)

data['the_column_in_question'].fillna(data.the_column_in_question.median(), inplace=True)

Birden fazla kolon için de şunlar var:





Belirli bir kolondaki eksik verileri başka kolonlara bakarak tamamlamak - Imputing/Handling missing values in a certain column based values in other columns:

Örnek: Başka bir kolondan direk transfer (direct transfer from another column)

# fill missing values
df['Postal Address'].fillna(df['Permanent Address'], inplace=True)
print(df)
# fill missing values
df['Postal Address'].fillna(df['Permanent Address'], inplace=True)
print(df)
# fill missing values
df['target_column'].fillna(df['other_column'], inplace=True)
print(df)


Örnek: Başka iki kolondaki verinin çarpımı

Example: multiplication of variables in two different columns

df['C'].fillna(df.A * df.B)

Bir diğer örnek:

Burada City kolonundaki boş değerler için diğer kolona (state kolonu) bakıp "City" kolonunun o kolondaki en fazla tekrarlanan karşılığı (max) neyse onu koy diyor.

df.update(df.replace('', np.nan).set_index('State', append=True) \
    .groupby(level='State').City \
    .apply(lambda x: x.fillna(x.value_counts().idxmax())) \
    .reset_index('State', drop=True))
df

















Hiç yorum yok:

Yorum Gönder