• <sup id="mk476"></sup>
    <dl id="mk476"></dl>
  • <progress id="mk476"><tr id="mk476"></tr></progress>
    <div id="mk476"><tr id="mk476"></tr></div>
    <sup id="mk476"><ins id="mk476"></ins></sup>
  • <progress id="mk476"></progress>
    <div id="mk476"></div>
    <div id="mk476"><tr id="mk476"></tr></div>
  • <div id="mk476"></div>
    <dl id="mk476"><s id="mk476"></s></dl><dl id="mk476"></dl><div id="mk476"></div>
  • <div id="mk476"></div>
    <dl id="mk476"><ins id="mk476"></ins></dl>
    摘要: 目标意义 为了理解动态网站中一些数据如何获取,做一个简单的分析。 说明 思路,原始代码来源于:https://book.douban.com/subject/27061630/。 构造-下载器 构造分下载器,下载原始网页,用于原始网页的获取,动态网页中,js部分的响应获取。 通过浏览器模仿,合理制作阅读全文
    posted @ 2019-07-12 17:12 嘘,小点声 阅读(306) 评论(3) 编辑
    摘要: 目的意义 爬虫应该能够快速高效的完成数据爬取和分析任务。使用多个进程协同完成一个任务,提高了数据爬取的效率。 ?#22253;?#24230;百科的一条为起点,抓取百度百科2000左右词条数据。 说明 参阅模仿了:https://book.douban.com/subject/27061630/。 作者说是简单的分布式爬虫(阅读全文
    posted @ 2019-06-27 17:32 嘘,小点声 阅读(201) 评论(0) 编辑
    摘要: 目的意义 基础爬虫分5个模块,使用多个文件相互配合,实现一个相对完善的数据爬取方案,便于以后更完善的爬虫做准备。 这里目的是爬取200条百度百科信息,并生成一个html文件,存储爬取的站点,词条,解释。 本文思路来源书籍。其代码部分来源书籍。https://book.douban.com/subje阅读全文
    posted @ 2019-06-09 20:40 嘘,小点声 阅读(247) 评论(0) 编辑
    摘要: 目的意义 使用Email自动发送,有利于实时获取爬取信息,更方便的掌握要闻。 导入相关库 MINEText库定义了发送信息, Header定义了发送的主题 formate定义了收件人和发件人的格式信息。 smtplib定义了发送?#22987;?#30340;方案 time用于延时发送 定义发送内容格式与服务器等 from_阅读全文
    posted @ 2019-06-07 23:07 嘘,小点声 阅读(23) 评论(0) 编辑
    摘要: 目的 批量下载网页图片 导入库 urllib中的request中的urlretrieve方法,可以下载图片 lxml用于解析网页 requests用于获取网站信息 定义回调函数 回调函数中,count表示已下载的数据块,size数据块大小,total表示总大小。 在使用urllib中的request阅读全文
    posted @ 2019-06-07 21:57 嘘,小点声 阅读(25) 评论(0) 编辑
    摘要: 目的 爬取http://seputu.com/数据并存储csv文件 导入库 lxml用于解析解析网页HTML等源码,提取数据。一些参考:http://www.tdhy.tw/zhangxinqi/p/9210211.html requests请求网页 chardet用于判断网页中的字符编码阅读全文
    posted @ 2019-06-07 17:53 嘘,小点声 阅读(184) 评论(0) 编辑
    摘要: 爬取静态数据并存储json阅读全文
    posted @ 2019-06-04 13:26 嘘,小点声 阅读(26) 评论(0) 编辑
    摘要: 创建并显示原始内容 其中的lxml第三方解释器加快解析速度 控制台显示出soup需要处理的内容: 提取对象内容和属性 搜索包括了所有的标签。默认提取第一个符合条件的标签。 提取Tag对象 其中,name用于显示标签名,去掉name则内容直接显示。 控制台输出效果如下: 显示属性 attrs用于显示属阅读全文
    posted @ 2019-06-02 22:12 嘘,小点声 阅读(39) 评论(0) 编辑
    摘要: 基本模型 请求与响应 Cookie处理 呵呵 Timeout处理 设置局部的Timeout 超时会抛出异常 修改全局的Timeout 返回响应代码 正常200,网页丢失404 检查重定向问题 当访问的网址返回后仍然是该网址,则未发生重定向。 另外一种使用类进行的重定向检查 代理设置 使用instal阅读全文
    posted @ 2019-06-02 19:18 嘘,小点声 阅读(19) 评论(0) 编辑
    摘要: import urllib2 源地址 在python3.3里面,用urllib.request代替urllib2 import cookielib 源地址 Python3中,import cookielib改成 import http.cookiejar from urlparse import u阅读全文
    posted @ 2019-06-02 17:28 嘘,小点声 阅读(34) 评论(1) 编辑
    摘要: 文件写入 文件读取 序列化操作 把内存中的数据变为可保存和共享,实现状态保存。cPickle使用C语言编写,效率高,优先使用。如果不存在则使用pickle。pickle使用dump和dumps实?#20013;?#21015;化。 反序列化操作 使用load实现反序列化 多进程创建 多进程使用os的fork复制完全相同的进程阅读全文
    posted @ 2019-06-01 19:05 嘘,小点声 阅读(70) 评论(0) 编辑
    摘要: 获取响应内容: 获取编码,状态(200成功,4xx客户端错误,5xx服务器相应错误),文本,?#21462;?定制Request请求 传递URL参数 定制请求头 发送POST请求 POST请求发送表单信息,密码不显示在URL中,数据字典发送时自动编码为表单形式。 超时并抛出异常 获取top250电影数据阅读全文
    posted @ 2019-05-31 22:10 嘘,小点声 阅读(54) 评论(0) 编辑
    摘要: 囚徒博弈 两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确凿,二者都判刑八年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。最终阅读全文
    posted @ 2019-05-24 17:16 嘘,小点声 阅读(25) 评论(0) 编辑
    摘要: 出于未知原因,想装一下。 因为有光盘,所以就从光盘安装就可以了。 首先是配置yum下的下载地址: 找到yum的地址,然后打开文件。 然后建立该文件的/media/cdrom路径。将光盘挂载到该路径下。注意enable取1 查询光盘设备: 挂载光盘到目录下,并查看: 查看配置状态: 完成。 尝试yum阅读全文
    posted @ 2019-05-17 22:40 嘘,小点声 阅读(24) 评论(0) 编辑
    摘要: 引用:https://blog.csdn.net/program_developer/article/details/80632779 将n维特征?#25104;?#21040;k维上,只保留包含绝大部分方差的维度特征,而忽?#22253;?#21547;方差几乎为0的特征维度,实现对数据特征的降维处理。 PCA算法有两种实现方法:基于特征值分解协方阅读全文
    posted @ 2019-05-05 23:10 嘘,小点声 阅读(19) 评论(0) 编辑
    江苏11选5软件 南粤风采26选5开奖 急速赛车公式 好运快3是什么 福彩快三彩票软件中奖 国外幸运28平台 七星彩预测号码 喜洋洋高手坛公式规律 2019彩票双色球历史记录 哪里有三张牌玩 谁有彩票店的业主微信 陕西十一选五任五遗漏数据 双色球102预测红球 半全场胜平负几种玩法 华东15选5走势图浙江 2013公式规律平码