Python

[Pandas] 판다스 컬럼의 고유값 찾기 (Pandas - Unique values in a Column)

에스더 2022. 3. 10. 10:31

요즘 ABIDE (Autism Brain Imaging Data Exchange) 데이터 셋을 가지고 연구를 진행하고 있기 때문에, 그 중 참여자들의 phenotypic 데이터로 든 예시

 

pandas를 이용하여 데이터를 로드 했을 때,

ABIDE에서 제공하고 있는 fMRI데이터는 세계 전역의 여러 기관에서 수집된 데이터이기 때문에, 데이터를 제공한 기관들의 리스트가 필요했다. 위의 캡쳐 이미지에서 보이듯이 SITE_ID 컬럼이 기관 코드를 갖고 있음.

 

 

방법 1) unique() 코드를 이용, 가장 간단함

위 사진과 같이 df.col_name.unique() or df[col_name'].unique()를 이용하면 unique한 컬럼 값을 array타입으로 출력한다.

 

 

방법 2) 일단 각 고유값 당 데이터가 몇개씩 있는지 구하고 싶다 했을 때, value_counts()를 이용할 수도 있다.

 

value_counts()함수는 한 컬럼에서 각 고유값에 해당하는 데이터의 개수를 Series타입으로 출력한다. 이 때, 고유값들이 이 Series의 인덱스 역할을 하고 있기 때문에,

 

list()함수를 사용해 주면 컬럼의 고유값 리스트를 얻을 수 있다.

 

데이터 출처: https://fcon_1000.projects.nitrc.org/indi/abide/