python爬虫执行js代码？

时间：2023-12-20 本站点击：0

如何用python爬虫直接获取被js修饰过的网页Elements?

打开浏览器，以google chrome为例，输入你上面的网址。然后按F12打开调试窗口，然后尝试勾选左边某一个选项，马上可以看到右边的调试窗口有东西输出。找到第一个输出的行，点击header，可以看到每一个都是用的post方法。

对于一些需要js异步加载的内容获取，通常是先获取相关源码，然后参考js源码，利用python伪造一个请求（带上所需的参数）再向服务器获取一次内容。动态内容的爬取，也是爬虫面临的一个比较大的难题。

模拟请求网页。模拟浏览器，打开目标网站。获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。

抓取动态页面有两种常用的方法，一是通过JavaScript逆向工程获取动态数据接口（真实的访问路径），另一种是利用selenium库模拟真实浏览器，获取JavaScript渲染后的内容。

用神箭手云爬虫，完全在云上编写和执行爬虫，不需要配置任何开发环境，快速开发快速实现。

驱动浏览器内核，这个方法的优点是编程实现比较简单，只要学会了驱动浏览器的 api 就可以在很少的改动下用于很多不同网站的抓取。但是缺点也很明显，慢，占用的资源比较多，不如抓包分析获取数据灵活。

写爬虫的话，你可以试试用【神箭手云爬虫开发平台】写爬虫，自带JS渲染、代理ip、验证码识别等功能，还可以发布和导出爬取的数据，生成图表等，都在云端进行，不需要安装开发环境。

我们一直使用思路二中的方法1，也就是说用一个浏览器内容来运行JavaScript和解析动态内容，而用python模拟人在浏览器上做动作。

用casperjs，它的底层是pantomjs，一个无界面浏览器，用js来操作页面浏览行为，可以等待想要的元素出现，可以获取页面上的内容。

选取python的selenium，模拟搭建浏览器，模拟人为的点击等操作实现数据生成和获取。selenium的一大优点就是能获取网页渲染后的源代码，即执行操作后的源代码。

法1：直接分析ajax调用的接口。然后通过代码请求这个接口。法2：使用Selenium+chromedriver模拟浏览器行为获取数据。Selenium 相当于是一个机器人。

用dryscrape库动态抓取页面 js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。

这个可以通过浏览器自带的f12 。或者通过鼠标右键，审计元素获得当前html源代码。步骤如下：使用框架载入形式，代码如下：代码解析：src=＂12htm＂载入的页面。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：/JavaScript/45308.html