Python爬虫之-百度的实时热点

Python爬虫之-百度的实时热点

生活服务小七2018-09-27 16:25:20A+A-

Python爬虫之-百度的实时热点

小编学习Python已经有大半个月了 先拿百度练练手  这里用到的是最新的 requests_html   (ps;支持最低Python版本是 3.6及以上 ,不是这个版本是会报错的!)


如下图 我们需要抓取的地方 就是实时热点!

image.png

先用审核元素 查看 这里我们找到 s-news-rank-content 元素  通过css选择器选取一个Element对象 find('.s-news-rank-content')  相关的语法 请看 了解更多

image.png

下面开始写代码

from requests_html import HTMLSession
session = HTMLSession()

def baidu():
    #需要模拟浏览器UA 还必须要已经登录过的账号cookie 这个很简单获取 
    headers = {
        'Cookie': '你的cookie',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
    }
    url = 'https://www.baidu.com/'
    r = session.get(url, headers=headers)
    r = r.html.find('.s-news-rank-content', first=True)
    print(r.text)
    
if __name__ == '__main__':
    baidu()

下面的输出的结果:(小编这里用的是Sublime  Text 3)

image.png

这里补充一下 如果还需要同时抓取链接 也很简单 只要直接输出 print(r.links)就好了

image.pngimage.png


今天的爬虫教程到这里就结束了! 如果上面的代码有不足或有错误的欢迎各位大神指出!

点击这里把资源分享给朋友 以上内容由小七资源网整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!

小七资源网 © All Rights Reserved.  Copyright 小七资源网
本站部分内容收集于互联网,如果有侵权内容、不妥之处,请联系我们删除。敬请谅解!E-mail:[email protected]