판다스(Pandas)는 다양한 형식의 데이터를 읽고 쓸 수 있는 강력한 기능을 제공합니다. 이를 통해 사용자는 여러 소스에서 데이터를 쉽게 불러오고, 분석 후 결과를 다양한 형식으로 저장할 수 있습니다.
데이터 읽기
1. CSV 파일 읽기
- `pd.read_csv()`: CSV(Comma-Separated Values) 파일을 DataFrame으로 읽어옵니다.
- 예시: `df = pd.read_csv('filename.csv')`
2. Excel 파일 읽기
- `pd.read_excel()`: Excel 파일을 DataFrame으로 읽어옵니다. 추가 패키지인 `openpyxl`이나 `xlrd`가 필요합니다.
- 예시: `df = pd.read_excel('filename.xlsx')`
3. SQL 데이터베이스에서 읽기
- `pd.read_sql()`, `pd.read_sql_table()`, `pd.read_sql_query()`: SQL 데이터베이스에서 직접 데이터를 읽어옵니다.
- SQL 연결 객체가 필요합니다 (예: SQLAlchemy를 사용한 연결).
- 예시: `df = pd.read_sql('SELECT * FROM table_name', con=connection)`
4. JSON 파일 읽기
- `pd.read_json()`: JSON 파일을 DataFrame으로 읽어옵니다.
- 예시: `df = pd.read_json('filename.json')`
5. HTML 파일 읽기
- `pd.read_html()`: HTML 파일 내 테이블을 DataFrame으로 읽어옵니다.
- 예시: `df = pd.read_html('filename.html')`
6. 기타 파일 포맷
- Parquet, HDF5, Feather 등 다양한 파일 포맷을 지원합니다.
데이터 쓰기
1. CSV 파일로 저장
- `DataFrame.to_csv()`: DataFrame을 CSV 파일로 저장합니다.
- 예시: `df.to_csv('filename.csv')`
2. Excel 파일로 저장
- `DataFrame.to_excel()`: DataFrame을 Excel 파일로 저장합니다.
- 예시: `df.to_excel('filename.xlsx')`
3. SQL 데이터베이스에 저장
- `DataFrame.to_sql()`: DataFrame을 SQL 테이블로 저장합니다.
- 예시: `df.to_sql('table_name', con=connection)`
4. JSON 파일로 저장
- `DataFrame.to_json()`: DataFrame을 JSON 파일로 저장합니다.
- 예시: `df.to_json('filename.json')`
5. HTML 파일로 저장
- `DataFrame.to_html()`: DataFrame을 HTML 테이블 형태로 저장합니다.
- 예시: `df.to_html('filename.html')`
6. 기타 파일 포맷으로 저장
- Parquet, HDF5, Feather 등 다른 형식으로도 저장할 수 있습니다.
각 메소드는 다양한 파라미터를 제공해 데이터를 불러오고 저장하는 과정을 사용자의 요구에 맞춰 조정할 수 있게 해줍니다. 예를 들어, CSV 파일을 읽을 때 구분자(delimiter), 헤더의 유무, 특정 열을 인덱스로 사용할 지 등을 지정할 수 있습니다. 데이터를 저장할 때도 인덱스 저장 여부, 압축 여부, 파일 인코딩 등을 설정할 수 있습니다. 이런 유연성 덕분에 판다스는 데이터 처리 및 분석 작업에 있어 매우 강력한 도구입니다.