Python
[Pandas] 판다스 컬럼의 고유값 찾기 (Pandas - Unique values in a Column)
에스더
2022. 3. 10. 10:31
요즘 ABIDE (Autism Brain Imaging Data Exchange) 데이터 셋을 가지고 연구를 진행하고 있기 때문에, 그 중 참여자들의 phenotypic 데이터로 든 예시
pandas를 이용하여 데이터를 로드 했을 때,
ABIDE에서 제공하고 있는 fMRI데이터는 세계 전역의 여러 기관에서 수집된 데이터이기 때문에, 데이터를 제공한 기관들의 리스트가 필요했다. 위의 캡쳐 이미지에서 보이듯이 SITE_ID 컬럼이 기관 코드를 갖고 있음.
방법 1) unique() 코드를 이용, 가장 간단함
위 사진과 같이 df.col_name.unique() or df[col_name'].unique()를 이용하면 unique한 컬럼 값을 array타입으로 출력한다.
방법 2) 일단 각 고유값 당 데이터가 몇개씩 있는지 구하고 싶다 했을 때, value_counts()를 이용할 수도 있다.
value_counts()함수는 한 컬럼에서 각 고유값에 해당하는 데이터의 개수를 Series타입으로 출력한다. 이 때, 고유값들이 이 Series의 인덱스 역할을 하고 있기 때문에,
list()함수를 사용해 주면 컬럼의 고유값 리스트를 얻을 수 있다.