如何设计和编写网络爬虫

 时间:2026-02-17 07:09:26

1、掌握必要的HTML基础知识,Chrome浏览器打开一个网页,按F12获取网页源代码(F11进入或者退出全屏模式)

如何设计和编写网络爬虫

如何设计和编写网络爬虫

2、打开电脑,启动spyder

如何设计和编写网络爬虫

3、引入所用库,建立头标集合

如何设计和编写网络爬虫

4、利用python语句访问源代码,获取源代码,保存源代码

如何设计和编写网络爬虫

5、创建 dataframe 对象,直接将获取的数据存放进 dataframe 对象中,保存为 csv文件。

如何设计和编写网络爬虫

6、整个爬虫成果如图:

如何设计和编写网络爬虫

如何设计和编写网络爬虫

如何设计和编写网络爬虫

7、附程序代码:

import urllib2

from lxml import etree

import pandas as pd

headers={'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'accept-language':'zh-CN,zh;q=0.8',

'user-agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/61.0.3163.100 Safari/537.36',

 }

url='http://news.ceic.ac.cn/'

request=urllib2.Request(url,headers=headers)##访问

response=urllib2.urlopen(request)##回应

html=response.read()##获取源代码

eq=pd.DataFrame()#创建 dataframe 对象

earthquake=etree.HTML(html)

#直接将获取的数据存放进 dataframe 对象中

eq['m']=earthquake.xpath('//table/tr/td[1]/text()')

eq['time']=earthquake.xpath('//table/tr/td[2]/text()')

eq['lng']=earthquake.xpath('//table/tr/td[3]/text()')

eq['lat']=earthquake.xpath('//table/tr/td[4]/text()')

eq['depth']=earthquake.xpath('//table/tr/td[5]/text()')

eq['place']=earthquake.xpath('//table/tr/td/a//text()')

#保存为 csv。encoding 参数可选 gbk 或者 utf8,在 Python 中显示乱码将其换为 utf8,

#在 Excel 中乱码换为 gbk

eq.to_csv('earthquake.csv',index=False,encoding='gbk')

如何设计和编写网络爬虫

  • 大宝不同意父母要二胎怎么办
  • 如何做百合炖鸡?
  • 饮水机漏水的原因与处理办法
  • 艾叶鸡蛋咸食的做法和功效
  • 教你如何在家里面也可以自制爽肤水
  • 热门搜索
    鸡腿肉的做法大全 微信发朋友圈不带图片怎么发 鸭肉怎么做好吃 烧鹅的做法 腊排骨的做法大全 乩怎么读 支付宝借呗怎么开通 巳怎么读 泡菜做法 新疆大盘鸡的正宗做法