(공식적으로 제공되는 데이터를 수집하는 방법에 대해 배운다)
API = 프로그램 간 상호소통을 위해 사전에 정의된 약속
지금까지 강의에서 해왔던 데이터 불러오기 방법 :
import pandas as pd
1. 로컬PC의 파일 읽어오기
경로변수 = '로컬파일 경로'
데이터이름 = pd.read_csv(경로변수)
2. Github의 공유 파일 읽어오기-->깃허브의 파일이 변경되면 반영된다. (누군가의 관리가 필요하다)
경로변수 = 'Github공유파일 경로'
데이터이름 = pd.read_csv(경로변수)
공공API를 사용할땐 인증키가 중요하다
URL(도메인)을 받아 인증키와 엮어 호출하면 데이터를 json(90%), xml(10%)로 받아볼 수 있다.
json,XML으로 받은 데이터 --> 딕셔너리 형태-->데이터 프레임으로 바꿔 사용한다.
공공데이터 URL중 (인증키)부분을 각자 받은 개인 인증키로 채우고 불러오면 된다.
XML형식으로 받은 파일은 HTML과 비슷하고 가독성있게 볼 수 있다.
Jason 형식은 딕셔너리 형태로 쭉 나열돼 보이기 때문에 가독성이 좀 더 떨어진다.
-->jason파서를 이용하면 좀 더 가독성있게 볼 수 있다.


데이터를 가져와 분석할 데이터 프레임으로 만들기
1. url변수 = 가져올 데이터의 url (<--인증키, jason/XML, 시작과 끝 페이지를 넣어준다)
2. 응답변수 = urllib.request.urlopen(url) #브라우저에 쳐서 데이터타입이 str인 응답을 받아온다.
3. json_str변수 = response.read().decode('utf-8') #읽어오기(데이터는 jason | XML형태이다.)
4. 딕셔너리변수 = json.loads(json_str변수) #jason, XML형태로 읽어온 데이터를 딕셔너리형으로 변환해준다.
5. 데이터프레임 이름 = pd.json_normalize(딕셔너리변수[' '][' ']) #데이터를 데이터 프레임으로 변환
5 -1 . 데이터프레임 이름 = pd.DataFrame(딕셔너리변수[' '][' ']) #위와 같음
# [' '][' '] = [데이터프레임안에 담을 데이터 특정하는 부분]
국내 주요 오픈 API 사이트
공공데이터 포털 (행정안정부에서 운영하는 오픈 API포털
문화데이터광장 (문화체육관광부에서 운영하는 오픈 API포털
공간정보오픈플랫폼 (국토교통부에서 운영하는 오픈 API포털
서울 열린데이터 광장 (서울시에서 운영하는 오픈 API포털
'오늘의 복습 정리' 카테고리의 다른 글
| 머신러닝_용어/사용법 (0) | 2023.03.06 |
|---|---|
| 데이터 수집(웹 크롤링) (1) | 2023.02.28 |
| 데이터 분석/이변량 분석(target이 범주일 때) (0) | 2023.02.23 |
| 데이터 분석/이변량 분석(target이 숫자일 때) (0) | 2023.02.22 |
| 데이터 분석/단변량분석 (0) | 2023.02.21 |