使用python写糗事百科的爬虫 - AAAA - ITeye博客

`

gaotong1991

浏览: 91225 次
来自: 北京

最近访客更多访客>>

u012363178

czj4451

qnlpkuge

zhxhcj

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

kaming：
你必须知道的Java并发编程基础知识
gaotong1991： jiang911113 写道递推那个有问题， 25!你试下考虑 ...
编程之美-阶乘末尾0的个数
gaotong1991： jiang911113 写道递推那个有问题， 25!你试下多谢 ...
编程之美-阶乘末尾0的个数
jiang911113：递推那个有问题， 25!你试下
编程之美-阶乘末尾0的个数
caizi12：你去参加了csdn承办的开源大会吧，我也去了
聆听大师---Perl发明人及开源软件先锋Larry Perl

使用python写糗事百科的爬虫

博客分类：

Web开发

阅读更多

最近看了一些利用python来写一些网站的爬虫以自动下载和排版的文章，于是自己动手也写一个，网络上很多的版本都无法正常运行，因为糗事百科现在不能直接使用url去使用爬虫了，必须要伪装成浏览器来下载。所以必须要加工一下现有的版本才行。

经过一下午的查看资料和手动测试，终于实现了，截图为证：

下面是直接在python GUI/IDLE里运行的结果

可以直接运行的代码，在http://down.51cto.com/data/1102905，感兴趣可以来尝试看看，以下是一个最简单的直接抓取整个糗事百科的所有源代码的demo,提供下载的版本已经使用正则表达式做过了精细的处理，效果如上图。

# python 2.7.5
import urllib2
myUrl = "http://m.qiushibaike.com/hot/page/"
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36 LBBROWSER')
opener = urllib2.build_opener()
opener.addheaders = [headers]
data = opener.open(myUrl).read()
print data

2
顶

2
踩

分享到：

我不懂技术，所以阿里技术是BAT中最强的 | 哪些行业巨头正在使用Linux

2014-03-16 21:00
浏览 1901
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python爬虫糗事百科: python爬虫，爬取糗事百科python爬虫，爬取糗事百科python爬虫，爬取糗事百科python爬虫，爬取糗事百科python爬虫，爬取糗事百科python爬虫，爬取糗事百科python爬虫，爬取糗事百科python爬虫，爬取糗事百科python...

python爬虫爬取糗事百科内容: 糗事百科的爬虫，是主要用来介绍爬虫的一些基本知识，方便大家爬取简单的糗事百科的内容，利用的是beautifulsoup

python3.6糗事百科爬虫源码: python爬虫入门实例，基于python3.6，实现糗事百科段子逐条读取，按回车键继续下一条，供python爬虫初学者参考学习！----2017.9.12

python爬取糗事百科源码: python爬取糗事百科源码

python获取糗事百科段子: 获取糗事百科段子程序，拥有UI交互界面下载之后无需任何配置，可以直接运行具体的程序请参考：http://blog.csdn.net/qiqiyingse/article/details/64522690

python糗事百科数据爬虫.zip: python糗事百科数据爬虫.zip

糗事百科爬虫代码: 简单的糗事百科爬虫代码，用几十行代码即可实现爬取糗事百科首页内容。

python_爬虫——爬取糗事百科: 亲测有效，不管是windows 还是Linux都...使用python 爬取糗事百科的段子，通过回车键控制，一次一个，同时可以把看过的内容保存到本地查看具体实现可以参照 http://blog.csdn.net/qiqiyingse/article/details/60583129

糗事百科python爬虫程序: python程序用于自动获取糗事百科的内容

【爬虫脚本】糗事百科爬虫之一: 【爬虫脚本】糗事百科爬虫之一用python语言编写，只是转发，希望pythoner共勉

糗事百科爬虫文件.py: 糗事百科爬虫文件.py

【爬虫】糗事百科爬虫之二: 【爬虫】糗事百科爬虫之二 urllib2的应用脚本，希望pythoner共勉

Python 制作糗事百科爬虫实例: 本文是结合前面的三篇关于python制作爬虫的基础文章，给大家分享的一份爬取糗事百科的小段子的源码，有需要的小伙伴可以参考下

Python3抓取糗百、不得姐、轻松一刻，完整可运行源码程序: 使用Python3.6抓取糗百、不得姐、kanqu.com数据，完整代码可运行，内附使用说明(main.py)，及运行演示(demo.gif).

糗事百科爬虫: 程序：糗百爬虫版本：0.3 作者：欧小帅日期：2016-04-03 语言：Python 2.7 操作：输入quit退出阅读糗事百科功能：按下回车依次浏览今日的糗百热点

爬虫糗事百科: 关于python的爬虫，爬的主要是糗事百科的图片，后续会有更多的操作

Python爬虫糗事百科段子（scrapy+beautifulsoup）: 通过scrapy框架获取页面内容，用beautifulsoup取代正则表达式匹配格式，获取多页段子

Scrapy糗事百科爬虫及Java版客户端.zip: 请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则...

糗事百科爬虫_by Akang.zip: 刚学没多久的python实战，最终选定的是糗事百科网站，爬取前13页的内容（可更改），具体效果图可以看我发的贴子教程，欢迎大家来讨论经验

Global site tag (gtag.js) - Google Analytics