일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 이더리움
- erc721
- tcp
- 블록체인
- erc
- 제어의역전
- 스마트 컨트랙트
- truffle
- 트랜잭션
- web
- NFT
- ERC165
- JavaScript
- Docker
- git
- Python
- ethers
- web3
- blockchain
- geth
- 솔리디티
- solidity
- ERC20
- web3.js
- Ethereum
- server
- MySQL
- github
- Programming
- 네트워크
- Today
- Total
목록Crawler (2)
멍개의 연구소
크롤러는 주로 파이썬을 통해개발을 합니다.javascript에서도 chreeio와 같이 크롤러를 할 수 있도록 해주는 라이브러리가 있으나, 비동기 적인 특성 때문에 코드의 작성이 상당히 어려운 부분이 있습니다. 그래서 다양한 라이브러리 제공하는 파이썬을 많이 사용합니다. 크롤러는 크게 2종류의 모듈을 사용합니다. 1. 웹 페이지 요청하는 모듈 2. 요청후 응답 받은 html 돔을 제어 할 수 있는 모듈(파서) 파이썬에서는 웹 페이지 요청을 하는 라이브러리로 requests와 urllib를 사용을 합니다. 파서 모듈로 BeautifulSoup(bs4)를 사용합니다. 우선 requests와 urllib는 요청하는건 같은데 내부적으로 텍스트를 처리하는 방식, 에러를 처리하는 방식이 다릅니다. urllib의 4..
import requests as rq def image_download(url, file_name): image_request_result = rq.get(url) image = image_request_result.content destination = open(file_name, 'wb') destination.write(image) if __name__ == "__main__": url = 'image _ url' file_name = 't.jpg' testForExif(file_name) 해당 이미지를 다운받는 소스입니다. 응답 데이터를 바이트 코드로 바꾸어 해당 바이트 코드를 파일로 만들어 줍니다. 원래 크롤러에스 쓰려고 한건 아니고 취약점 검사를 할 때 이미지를 가져와서 해당 이미지 파일의 ..