Pandas, Pyplot, scikit-learn
Pandas
df.groupby(“team”)[“Points”].sum()
hierarchical index unstack()
h_index.unstack()
RDB데이터를 매트릭스로 바꿀때 많이 사용
df.groupby([“source”, “target”)[“rating”].sum().unstak().fillnan(0) #매트릭스형태로 변환
cumsum
cummin
cummax
시계열데이터 feature 생성
pd.merge(df_a, df_b, on=’subject_id’)
inner join기준으로 merge함.
pd.merge(df_a, df_b, on=’subject_id’, how=’left’) # Left Join
pd.merge(df_a, df_b, on=’subject_id’, how=’right’) # Right Join
pd.merge(df_a, df_b, on=’subject_id’, how=’outer’) # Full Join
writer = pd.ExcelWriter(‘.df.xlsx’, engine=’xlswriter’)
df_routes.to_excel(writer, sheet_name=’Sheet1′)
pyplot
범례 plt.legend(shadow=True, fancybox=True, loc=’lower right”)
df.dropna() # null데이터 row 날려버리기
df.dropna(how=’all’) #모든데이터가 비워져있으면 drop
df.dropna(thresh=5) #데이터가 5개 이상 없으면 drop
df.fillna(0) # null을 0으로 채워넣음.
inplace=true # 데이터 직접 바꿈
원핫인코딩 변환
pd.get_dummies(edges)
edges = pd.get_dummies(edges[“color”])
edges.as_matrix()
데이터 구간나누기 data binning
pd.cut(df[‘ddd’], bins, labels=group_names)
카테고리 데이터 생성
from sklearn import preprocessing
le = preprocessing.labelEncoder() #Encoder생성
le.transform(데이터) # 트랜스포메이션
feature scaling # feature간 차이 조정
sklearn
preprocessing.StandardScaler().fit(데이터)
transform
알고리즘 속도 빠르게 하기 위해서 스케일링 해주면 좋음.
sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.33, random_state=42)
#데이터 스케일링
from sklearn import preprocessing
minmax_scale = preprocessing.MinMaxScaler().fit(x_data)
x_scaled_data = minmax_scale.transform(x_data)
l2 = Ridge
l1 = Lasso
최근 댓글