import requests
from bs4 import BeautifulSoup
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://www.genie.co.kr/chart/top200?ditc=M&rtm=N&ymd=20210701',headers=headers)
soup = BeautifulSoup(data.text, 'html.parser')
패키지를 import 하여 한다.
크롤링 원하는 목록을 선택하고 개발자 도구를 사용하여 태그를 선택 복사한다.
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://www.genie.co.kr/chart/top200?ditc=M&rtm=N&ymd=20210701',headers=headers)
soup = BeautifulSoup(data.text, 'html.parser')
print(soup)
#body-content > div.newest-list > div > table > tbody > tr:nth-child(1) > td.number
#body-content > div.newest-list > div > table > tbody > tr:nth-child(2) > td.info > a.title.ellipsis
trs = soup.select('#body-content > div.newest-list > div > table > tbody > tr')
선택된 태그를 복사해서 패턴을 확인하고 추출할 값을 반복문을 사용하여 변수에 배열을 담는다.
for tr in trs:
rank = tr.select_one('td.number').text[0:2].strip()
title = tr.select_one('td.info > a.title.ellipsis').text.strip()
artist = tr.select_one('td.info > a.artist.ellipsis').text.strip()
#.text[0:2] 앞에서 두자리 문자만 추출하기 .strip() 앞뒤 공백은 없애기로한다.
print(rank, title, artist)
flask 서버 환경에서 API 만들기 (0) | 2022.12.05 |
---|---|
서버 만들기 (0) | 2022.12.05 |
mongoDB에 가입하고 사용해보기 (0) | 2022.12.02 |
파이썬을 이용한 웹 크롤링 (네이버영화) (0) | 2022.12.02 |
Ajax를 사용하여 이미지와 텍스트 불러오기 (0) | 2022.11.30 |