[PYTHON] &[Web Scraping] BeautifulSoup 사용법

1 a n G u a g e /PYTHON

by 동혼 2019. 8. 25. 20:44

__________________________________________________

BeautifulSoup

데이터 추출 속성 > text / stirng

BeautifulSoup 사용

from bs4 import BeautifulSoup as bs 후 soup 변수에 저장
bs 를 사용하는 이유 : 응답받은 데이터 중 원하는 데이터를 추출하기 위하여

__________________________________________________

find / select

find : 파워링크 1 개를 가져올때 사용

select_one 과 의미가 같다

find 사용 방법

태그만 : soup.find('a')
태그와 클레스명 : soup.find('a' , class_ = "" )
태그와 아이디 : soup.find('a' , id="")

findAll = fina_all : 파워링크 여러개를 가져올 때

리스트 형태로 가져옴
select와 의미가 같다

select 사용법

여러개 : soup.select(' ')
한개 : soup.select_one(' ')

__________________________________________________

url 가져오기 & 저장 & 사용하기

url = "원하는 사이트의 url 붙복 "res = req.get(url)¶

해당 주소의 html을 가져와서 res 에 저장
requests.models.Response 형태로 저장됨 ( string 같은 타입 )res.text
으로 string 변환하여 데이터 확인
만약 res.text 가 오류 뜰 경우 html 의 user-aget를 넣어주기

__________________________________________________

그 외 tip

주석 , html , tag 등 을 제거하기 위한 절차

soup_news.findAll("script") 사용하여 script 를 가져옴

^ script tag 삭제

내용만 추출하기 위하여 content 라는 변수에
해당 div, id 값을 찾아 select / find 해준다

'1 a n G u a g e > PYTHON' 카테고리의 다른 글

[PYTHON] &[Muchine Learning] KNeighborsClassifier 을 이용한 xor , and 연산자 (0)	2019.08.31
[PYTHON] &[Web Scraping] BeautifulSoup - 실시간 검색어 20개 가져오기 (0)	2019.08.26
[PYTHON] &[machine learning] KNeighborsClassifier / LogisticRegression / LinearSVC 를 이용한 손글씨 분류 (0)	2019.08.23
[PYTHON] request , beautifulsuop (0)	2019.08.21
[PYTHON] Pandas 개념정리 (0)	2019.06.28

동혼

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

BeautifulSoup

find / select

url 가져오기 & 저장 & 사용하기

그 외 tip

'1 a n G u a g e > PYTHON' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바