博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python开发简单爬虫(二)---爬取百度百科页面数据
阅读量:5167 次
发布时间:2019-06-13

本文共 438 字,大约阅读时间需要 1 分钟。

一、开发爬虫的步骤

1.确定目标抓取策略:

打开目标页面,通过右键审查元素确定网页的url格式、数据格式、和网页编码形式。

①先看url的格式, F12观察一下链接的形式;

② 再看目标文本信息的标签格式, 比如文本数据为div class="xxx",
③ 容易看到编码为utf-8

2.分析目标
目标: 百度百科python词条
入口页: http://baike.baidu.com/item/Python
词条页面url格式:/item/****
数据格式:
标题: <dd class="lemmaWgt-lemmaTitle-title"><h1>****</h1></dd>

简介: <div class = "lemma-summary">****</div>

页面编码: utf-8

3.实例代码

爬取百度百科Python词条以及相关的1000个页面数据

 

转载于:https://www.cnblogs.com/Lovebugs/p/7126886.html

你可能感兴趣的文章
linux基本命令
查看>>
Oracle插入日期格式出现 ORA-01843: not a valid month的解决办法
查看>>
HashSet的实现原理
查看>>
Java HashMap 分析之四:查找和内存使用
查看>>
《与熊共舞》——软件项目风险管理
查看>>
Linux system函数详解
查看>>
spring-boot启动信息中non-fatal error
查看>>
ubuntu14.04 Hadoop单机开发环境搭建MapReduce项目
查看>>
论文笔记:Deformable ConvNets v2: More Deformable, Better Results
查看>>
开通博客
查看>>
day03_04 文件后缀及系统环境变量
查看>>
JAVASCRIPT和JSP计算闰年
查看>>
OracleDBConsole启动不了
查看>>
PhoneGap工具Cloud9 IDE介绍以及使用方法
查看>>
HTML5 File 对象
查看>>
顺序表和链式表总结
查看>>
vc6.0中的dsp,dsw,ncb,opt,clw,plg,aps等文件的简单说明
查看>>
深入浅出SharePoint2013——安装SharePoint2013
查看>>
回校前的流水账
查看>>
python2与python3的区别
查看>>