编写一个高效且稳定的爬虫程序需要考虑多个方面,包括环境准备、数据存储、爬虫类定义、遵守robots.txt协议、异常处理、数据解析与存储、定时任务与监控等。以下是一些关键步骤和代码示例,帮助你编写一个优秀的爬虫程序:
1. 环境准备
确保你已经安装了Python,并安装必要的库,如`requests`和`BeautifulSoup4`。
```bash
pip install requests beautifulsoup4
```
2. 创建数据库
为了存储抓取的数据,可以使用SQLite数据库。
```python
import sqlite3
def create_database():
conn = sqlite3.connect('data.db')
cursor = conn.cursor()
cursor.execute('''CREATE TABLE IF NOT EXISTS articles (id INTEGER PRIMARY KEY AUTOINCREMENT, title TEXT NOT NULL, link TEXT NOT NULL)''')
conn.commit()
conn.close()
```
3. 定义爬虫类
创建一个爬虫类,负责发送请求、解析网页和存储数据。
```python
import requests
from bs4 import BeautifulSoup
import sqlite3
class SimpleCrawler:
def __init__(self):
self.conn = sqlite3.connect('data.db')
self.cursor = self.conn.cursor()
self.cursor.execute('''CREATE TABLE IF NOT EXISTS articles (id INTEGER PRIMARY KEY AUTOINCREMENT, title TEXT NOT NULL, link TEXT NOT NULL)''')
def crawl(self, url):
headers = {
'User-Agent': 'Mozilla/5.0 (compatible; MyBot/1.0; +http://example.com/bot)'
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
content = response.text
soup = BeautifulSoup(content, 'html.parser')
articles = soup.find_all('article')
for article in articles:
title = article.find('h2').text
link = article.find('a')['href']
self.cursor.execute('INSERT INTO articles (title, link) VALUES (?, ?)', (title, link))
self.conn.commit()
print(f'Crawled {len(articles)} articles from {url}')
else:
print(f'Failed to crawl {url}, status code: {response.status_code}')
def close(self):
self.conn.close()
```
4. 遵守robots.txt协议
在爬取网站之前,检查并遵守网站的robots.txt文件。
```python
from urllib.robotparser import RobotFileParser
def check_robots(url):
rp = RobotFileParser()
rp.set_url(url + '/robots.txt')
rp.read()
return rp.can_fetch('*', url)
```
5. 处理异常情况
在爬虫程序中添加异常处理,确保程序的稳定性。
```python
import requests
from bs4 import BeautifulSoup
def simple_crawler(url):
headers = {
'User-Agent': 'Mozilla/5.0 (compatible; MyBot/1.0; +http://example.com/bot)'
}
try:
response = requests.get(url, headers=headers, timeout=10)
response.raise_for_status()
content = response.text
soup = BeautifulSoup(content, 'html.parser')
return content
except requests.exceptions.RequestException as e:
print(f'Error: {e}')
return None
```
6. 数据存储与处理
将抓取到的数据存储到数据库或文件中,并进行必要的格式化和清洗。
```python
import csv
def save_to_csv(data, filename):
with open(filename, mode='a', encoding='utf-8', newline='') as file:
writer = csv.writer(file)
writer.writerow(data)
```
7. 定时任务与监控
将爬虫代码部署为定时任务,并设置相应的监控机制,确保爬虫的长期稳定运行。
8. 选择合适的爬虫框架
根据任务需求选择合适的爬虫框架,如Scrapy、BeautifulSoup、Requests等。
9. 分析目标网页结构
详细分析目标网站的页面结构,使用开发者工具查看元素的XPath或CSS Selector。
10. 处理反爬虫机制
使用代理IP