第一部分:在计算机上安装Python的requests库
打开cmd或者在pycharm终端中输入如下命令
pip install requests
这样就是已经安装成功
第二部分:爬取网页的源代码并输出
这里以我自己的个人主页网站为爬取对象。网址:
https://www.mojue88.com/
-
编写Python脚本:
打开您喜欢的文本编辑器或IDE(如VS Code、PyCharm等),并创建一个新的Python文件(例如fetch_mojue88.py
)。 -
编写代码以获取网页源代码:
将以下代码粘贴到您的Python文件中:
"""
* @Author : Denver 墨觉云屋
* @Url : i.mojue88.com
* @Date : 2024-09-18 10:44:21
* @Email : admin@mojue88.com
* @Project : python爬虫示例 */
"""
import requests
url = 'https://www.mojue88.com/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
# 使用text属性获取网页的源代码
html_content = response.text
# 输出网页源代码
print(html_content)
else:
print(f"请求失败,状态码:{response.status_code}")
运行脚本:
在命令行中导航到您的Python文件所在的目录,并运行该文件:
python fetch_mojue88.py
或者如果您的系统要求使用python3:
python3 fetch_mojue88.py
-
查看输出:
如果一切设置正确,您将看到https://www.mojue88.com/
网页的源代码被打印到命令行或您的终端中,包括中文字符。 - 输出结果:
- 代码截图: