配置式页面自动操作研究文献综述

 2022-09-26 17:23:55

文献综述(或调研报告):

本课题主要研究网页自动化操作,自动化技术的关键在于能够用程序控制各种对象,执行人们预设定的动作。用于实现网页自动化操作的技术各不相同。

传统的Web数据采集使用的是curl、wget 等工具[1-5],这类工具的原理是直接抓取和下载网页HTML文件。对于含Ajax内容的页面,只有当用户执行交互操作时,网页才实时地使用Ajax技术向服务器请求更多的话题数据,再使用JavaScript脚本动态生成话题内容并加载显示出来。由于传统数据采集方法没有交互功能,无法与页面进行交互,从而难以获得完整的数据信息。

虽然从理论上讲,通过抓取底层的 HTTP 协议数据包可以找出 Ajax 实际请求的网络地址,然后模拟Ajax请求获得数据,但是在实践中实现的技术难度较大。实现这种是弄清内容动态生成的机制,需要深入分析并读懂底层复杂的网页 JavaScript代码。如果网站出于数据保护目的对 JavaScript代码进行压缩或加密,这个任务的实现将更加困难。此外,这种方法通用性较差,对每一处Ajax动态内容都需要重复这些复杂的操作。

还有一种方法是基于Web应用软件所提供的二次开发接口,可以利用所提供的接口实现网页的自动化操作,但是由于Web应用软件种类各异,提供的接口也各不相同,因此对于每一种 Web 应用软件,都要利用其本身提供的接口进行开发[6],对于开发人员来说,要学习不同的 Web 应用软件提供的接口,导致开发的效率较低。

另一种技术是研究类似于Windows系统中的API HOOK技术,在无二次开发接口的情况下对Web页面的控件进行捕捉,监控其执行。[7]在软件领域,对象实体具体指界面上的各种控件。一个基于Win32的应用程序,启动后,会在桌面出现主窗口,每个窗口都有其句柄和指针,我们可以通过Win32 API函数来获取当前运行窗口的句柄,进而获取它的指针,通过该指针又可以获取到窗口中的各个子控件的句柄,并可对各子控件发送消息,令子控件执行各种操作。然而,对于基于Web的应用程序来说,只有它的外壳(即浏览器)是一个标准Windows窗口控件,浏览器所包含的Web页面中,各种子对象(如文本框、按 钮、超级链接)不是标准 Windows控件,无法通过传统Win32API函数来获取它们的指针。但是可以利微软在发布 Internet Explorer的同时所提供的二次开发接口,获取Web页面中各种对象的指针,从而达到操纵页面对象的目的。

还有一种技术是利用 Selenium 这种集成工具进行自动化操作软件的开发,通过模拟用户对 Web 页面的各种操作,实现网页自动化操作。[8-11]这种集成工具的核心是一组与浏览器交互通信的接口和协议, 使得外部程序能够通过这一标准编程接口与任何遵循该协议的浏览器直接进行交互, 从而绕过鼠标、键盘等用户交互设备,直接向浏览器发出各种操作指令,实现 Web 操作的自动化。

目前,国内外市场上已经出现了一些能够实现网页自动化操作的应用软件,这些软件针对不同的用户需求提供不同自动化操作方式,它们通过采用某些技术,模拟用户对网页的各种操作,以实现网页操作的自动化。例如 ZennoPoster,IMacros 等。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版