상세 컨텐츠

본문 제목

[PYTHON] &[Web Scraping] BeautifulSoup 사용법

1 a n G u a g e /PYTHON

by 동혼 2019. 8. 25. 20:44

본문

 

__________________________________________________

 

BeautifulSoup

  • 데이터 추출 속성 > text / stirng

BeautifulSoup 사용

  • from bs4 import BeautifulSoup as bs 후 soup 변수에 저장
  • bs 를 사용하는 이유 : 응답받은 데이터 중 원하는 데이터를 추출하기 위하여

 

 

__________________________________________________

 

find / select

 

 

find : 파워링크 1 개를 가져올때 사용

  • select_one 과 의미가 같다

find 사용 방법

  • 태그만 : soup.find('a')
  • 태그와 클레스명 : soup.find('a' , class_ = "" )
  • 태그와 아이디 : soup.find('a' , id="")

findAll = fina_all : 파워링크 여러개를 가져올 때

  • 리스트 형태로 가져옴
  • select와 의미가 같다

select 사용법

  • 여러개 : soup.select(' ')
  • 한개 : soup.select_one(' ')

 

 

__________________________________________________

 

url 가져오기 & 저장 & 사용하기 

 

url = "원하는 사이트의 url 붙복 "res = req.get(url)

  • 해당 주소의 html을 가져와서 res 에 저장
  • requests.models.Response 형태로 저장됨 ( string 같은 타입 )res.text
  • 으로 string 변환하여 데이터 확인
  • 만약 res.text 가 오류 뜰 경우 html 의 user-aget를 넣어주기

 

 

__________________________________________________

 

 

그 외 tip

 

 

주석 , html , tag 등 을 제거하기 위한 절차

  • soup_news.findAll("script") 사용하여 script 를 가져옴

^ script tag 삭제

  • 내용만 추출하기 위하여 content 라는 변수에
  • 해당 div, id 값을 찾아 select / find 해준다

 

관련글 더보기

댓글 영역