데이터 수집(API)

(공식적으로 제공되는 데이터를 수집하는 방법에 대해 배운다)

API = 프로그램 간 상호소통을 위해 사전에 정의된 약속

지금까지 강의에서 해왔던 데이터 불러오기 방법 :

import pandas as pd

1. 로컬PC의 파일 읽어오기

경로변수 = '로컬파일 경로'
데이터이름 = pd.read_csv(경로변수)

2. Github의 공유 파일 읽어오기-->깃허브의 파일이 변경되면 반영된다. (누군가의 관리가 필요하다)

경로변수 = 'Github공유파일 경로'
데이터이름 = pd.read_csv(경로변수)

공공API를 사용할땐 인증키가 중요하다

URL(도메인)을 받아 인증키와 엮어 호출하면 데이터를 json(90%), xml(10%)로 받아볼 수 있다.

json,XML으로 받은 데이터 --> 딕셔너리 형태-->데이터 프레임으로 바꿔 사용한다.

공공데이터 URL중 (인증키)부분을 각자 받은 개인 인증키로 채우고 불러오면 된다.

XML형식으로 받은 파일은 HTML과 비슷하고 가독성있게 볼 수 있다.

Jason 형식은 딕셔너리 형태로 쭉 나열돼 보이기 때문에 가독성이 좀 더 떨어진다.

-->jason파서를 이용하면 좀 더 가독성있게 볼 수 있다.

데이터를 가져와 분석할 데이터 프레임으로 만들기

1. url변수 = 가져올 데이터의 url (<--인증키, jason/XML, 시작과 끝 페이지를 넣어준다)

2. 응답변수 = urllib.request.urlopen(url) #브라우저에 쳐서 데이터타입이 str인 응답을 받아온다.
3. json_str변수 = response.read().decode('utf-8') #읽어오기(데이터는 jason | XML형태이다.)

4. 딕셔너리변수 = json.loads(json_str변수) #jason, XML형태로 읽어온 데이터를 딕셔너리형으로 변환해준다.

5. 데이터프레임 이름 = pd.json_normalize(딕셔너리변수[' '][' ']) #데이터를 데이터 프레임으로 변환

5 -1 . 데이터프레임 이름 = pd.DataFrame(딕셔너리변수[' '][' ']) #위와 같음

# [' '][' '] = [데이터프레임안에 담을 데이터 특정하는 부분]

국내 주요 오픈 API 사이트

공공데이터 포털 (행정안정부에서 운영하는 오픈 API포털

https://www.data.go.kr

문화데이터광장 (문화체육관광부에서 운영하는 오픈 API포털

https://www.culture.go.kr

공간정보오픈플랫폼 (국토교통부에서 운영하는 오픈 API포털

https://www.vworld.kr

서울 열린데이터 광장 (서울시에서 운영하는 오픈 API포털

https://data.seoul.go.kr

'오늘의 복습 정리' 카테고리의 다른 글

머신러닝_용어/사용법 (0)	2023.03.06
데이터 수집(웹 크롤링) (1)	2023.02.28
데이터 분석/이변량 분석(target이 범주일 때) (0)	2023.02.23
데이터 분석/이변량 분석(target이 숫자일 때) (0)	2023.02.22
데이터 분석/단변량분석 (0)	2023.02.21

Ablog

데이터 수집(API)

'오늘의 복습 정리' 카테고리의 다른 글

티스토리툴바

데이터 수집(API)

'오늘의 복습 정리' 카테고리의 다른 글

관련글

티스토리툴바