Feature engineering'in tam Türkçesini bilmiyorum. (belki veri/nitelik/özellik yönetimi denebilir)
Bu post'ta eksik veya bir şekilde tamamlanması ya da dönüştürülmesi gereken verilerin nasıl işlenebileceğiyle ilgili örnekleri koyacağım. Sanırım ağırlıklı olarak python kodları olacak..
Finding Missing Values - Eksik verileri bulmak
Eksik verilerin toplamını bulmak:
data.isnull().sum()
Belirli bir kolondaki eksik verileri bulmak:
(data.isnull().sum())['the_column_in_question']
Eksik verileri silmek - Dropping null values:
.
.
.
.
Belirli bir kolondaki eksik verileri o kolon temelinde tamamlamak - Imputing missing values in a certain column based on that column:
(burada median'le tamamlanmış ama mesela mean kullanmak da bir seçenek)
data['the_column_in_question'].fillna(data.the_column_in_question.median(), inplace=True)
Birden fazla kolon için de şunlar var:
Belirli bir kolondaki eksik verileri başka kolonlara bakarak tamamlamak - Imputing/Handling missing values in a certain column based values in other columns:
Örnek: Başka bir kolondan direk transfer (direct transfer from another column)
Örnek: Başka iki kolondaki verinin çarpımı
Example: multiplication of variables in two different columns
df['C'].fillna(df.A * df.B)Bir diğer örnek:
Burada City kolonundaki boş değerler için diğer kolona (state kolonu) bakıp "City" kolonunun o kolondaki en fazla tekrarlanan karşılığı (max) neyse onu koy diyor.
df.update(df.replace('', np.nan).set_index('State', append=True) \
.groupby(level='State').City \
.apply(lambda x: x.fillna(x.value_counts().idxmax())) \
.reset_index('State', drop=True))
df
Hiç yorum yok:
Yorum Gönder