일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 알고리즘 풀이
- js
- 파이썬
- Git
- 파이썬 알고리즘
- AWS
- form
- 백준
- java
- MAC
- PYTHON
- c++
- javascript
- HTML
- 알고리즘 문제
- web
- Baekjoon
- API
- Algorithm
- django widget
- 알고리즘
- 장고
- DRF
- es6
- 알고리즘 연습
- Django
- django ORM
- CSS
- react
- django rest framework
- Today
- Total
목록웹프로그래밍/crawling (3)
수학과의 좌충우돌 프로그래밍
BeautifulSoup 으로 웹 크롤링하기 앞에서 우리는 이미 BeuatifulSoup 를 설치 하였고 import 가 잘 되는지도 확인해보았습니다. 혹시 BeuatifulSoup4 버젼을 설치해야한다고 했던 게 기억나시나요?그냥 BeuatifulSoup 를 설치하게 되면, 이는 BeuatifulSoup3 버젼이고 python3과 호환이 되지 않습니다. 이 점 다시 한 번 유의해주시기 바랍니다.말하는 김에 한 가지 더 유의해야 할 점이 있습니다. 우리는 우리가 원하는 정보를 얻기 위해서 각 태그에 접근을 할 것입니다. 그리고 개발자도구 를 통해 어떤 태그인지를 확인 할 것 입니다. 여기서 문제가 발생합니다. 웹 페이지는 일종의 문서이기 때문에 웹 브라우저가 이를 해석하는 방식의 차이가 있습니다. 즉 해..
requests_get requests 이번에는 requests 라는 라이브러리를 통해서 본격적으로 데이터를 가져와보도록 하겠습니다. 위에서 HTTP 메소드에 대해서 이야기를 했었고 requests를 통해서 모든 메소드에 대해서 접근이 가능하지만 가장 많이 쓰이고 중요한 GET과 POST 에 대해서만 다뤄보도록 하겠습니다. GET 요청 데이터를 불러오는 방법은 생각보다 간단합니다. 그리고 그 간단함이 바로 requests 라이브러리의 가장 큰 장점 중 하나죠. import requests response = requests.get('http://naver.com') response.text 결과를 확인하면 아래와 같습니다. '\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n..
먼저 크롤링이 무엇인지 부터 알아보자. 크롤링이란 사람이 웹페이지에 접속해서 정보를 찾는 과정을 프로그램을 통해 찾아 수집하고 원하는 형태에 맞게 가공하는 모든 과정을 의미한다.크롤링에 대한 설명을 하기 전에 먼저 알아야 할 개념이 있는데 바로 HTTP이다. 아마 많이 익숙할 것이다. 우리가 웹 상에서 어느 페이지에 접속하기 위해 입력하는 주소가 대부분 http 로 시작하기 때문이다. HTTP 에 대해서 알아보자 HTTP 란? HTTP는 HyperText Transfer Protocol 의 약자로 인터넷 통신을 위해 사용되는 프로토콜이다. 또 어려운 단어가 등장했다. 그러면 프로토콜은 무엇일까? 쉽게 생각해서 컴퓨터 간의 의사소통에 사용되는 언어이다. 사람 간의 대화에서도 서로 이해할 수 있는 같은 언어..