爬虫综合应用

ID: 180

传统题

10000ms

256MiB

尝试: 1050

已通过: 59

难度: 9

上传者:

天外飞仙

标签>

三级

爬虫

log = print
1, pip 安装 certifi
2, 浏览器显示网页的原理, 实际上是把一个 .html 格式的文本文件渲染成我们看到的网页
打开 chrome 浏览器, 输入下面的地址可以进入豆瓣电影 top250 的页面
https://movie.douban.com/top250
在浏览器中点右键 - 查看网页源代码(View Page Source) 可以打开这个页面的源代码
第一个页面有 25 个电影
我们以每部电影的评分为例, 观察发现评分是包含在 property="v:average"> 和 </span> 中的
所以我们利用之前的 find_between 作业可以提取每部电影的评分
"""
# 引入我们需要用的标准库, 它是用来下载一个网页的
from urllib.request import urlopen, Request
import ssl
import certifi

from urllib.request import urlopen, Request
import ssl
import certifi
def download_URL():
    # 这里把 url 写死为豆瓣 top250 页面
    url = 'https://movie.douban.com/top250'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) '
                      'AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/80.0.3987.149 Safari/537.36'
    }
    # 先请求网页
    ret = Request(url, headers=headers)
    # 下载页面, 得到的是一个 bytes 类型的变量 s
    s = urlopen(ret, context=ssl.create_default_context(cafile=certifi.where())).read()
    # log('s', s)
    # 用 utf-8 编码把 s 转为字符串并返回
    content = s.decode('utf-8')
    # log('content', content)
    return content

注意：代码先在pycharm里运行，生成的结果复制到网站上，print输出提交。

#P1730. 爬虫综合应用

状态

开发

支持

#P1730. 爬虫综合应用

爬虫综合应用

状态

开发

支持

还没有账户？

登录