#P1730. 爬虫综合应用
爬虫综合应用
log = print
1, pip 安装 certifi
2, 浏览器显示网页的原理, 实际上是把一个 .html 格式的文本文件渲染成我们看到的网页
打开 chrome 浏览器, 输入下面的地址可以进入豆瓣电影 top250 的页面
https://movie.douban.com/top250
在浏览器中点右键 - 查看网页源代码(View Page Source) 可以打开这个页面的源代码
第一个页面有 25 个电影
我们以每部电影的评分为例, 观察发现评分是包含在 property="v:average"> 和 </span> 中的
所以我们利用之前的 find_between 作业可以提取每部电影的评分
"""
# 引入我们需要用的标准库, 它是用来下载一个网页的
from urllib.request import urlopen, Request
import ssl
import certifi
from urllib.request import urlopen, Request
import ssl
import certifi
def download_URL():
# 这里把 url 写死为豆瓣 top250 页面
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) '
'AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/80.0.3987.149 Safari/537.36'
}
# 先请求网页
ret = Request(url, headers=headers)
# 下载页面, 得到的是一个 bytes 类型的变量 s
s = urlopen(ret, context=ssl.create_default_context(cafile=certifi.where())).read()
# log('s', s)
# 用 utf-8 编码把 s 转为字符串并返回
content = s.decode('utf-8')
# log('content', content)
return content
注意:代码先在pycharm里运行,生成的结果复制到网站上,print输出提交。