学术咨询服务正当时学报期刊咨询网是专业的学术咨询服务平台!

热点关注: 论文检索页是什么意思 如何证明自己发表的论文见刊了 可以快速见刊的普刊有哪些?
当前位置: 学报期刊咨询网学报论文范文》新时期电子资源使用统计系统研究与应用

新时期电子资源使用统计系统研究与应用

发布时间:2022-04-02 11:03所属平台:学报论文发表咨询网浏览:

  摘要:电子资源使用统计的计量是图书馆备受关注的主题,COUNTER 版本 5 的修订以及电子资源的访问协议由 HTTP 转换为 HTTPS,在此新背景下,图书馆需要寻求适配的解决方案。本文提出基于反向代理软件 Nginx 作为中间人的方案,将加密的传输数据解密成明文,从而获取

  摘要:电子资源使用统计的计量是图书馆备受关注的主题,COUNTER 版本 5 的修订以及电子资源的访问协议由 HTTP 转换为 HTTPS,在此新背景下,图书馆需要寻求适配的解决方案。本文提出基于反向代理软件 Nginx 作为中间人的方案,将加密的传输数据解密成明文,从而获取到用户行为信息及电子资源元数据信息,并在此基础上依据 COUNTER 规范约定的报告格式及度量指标统计电子资源使用量该方案解决了基于 HTTPS 协议访问的电子资源使用统计问题,度量指标的一致性,便于图书馆对购置的多种数据库使用情况进行横向对比,为电子资源的购置决策提供重要依据。

  关键词:电子资源 使用统计 COUNTER 反向代理

通信

  引言泛在化学习、科研环境下,电子资源与传统的纸本文献相比,更受广大师生青睐,已成为高校图书馆的主导文献资源。为更好地满足读者需求,推进“双一流”建设,高校图书馆对电子资源投入的购置经费占文献资源购置费比例较高。

  据教育部图工委 2019 年对全国高校图书馆发展报告统计,电子资源购置费馆际差距显著,超过千万的高校有 106 所,电子资源购置费均值为 323.3 万,占文献资源购置费 54.6%,基本上呈现逐年攀升趋势[1]。为合理、科学地做出采购决策,使采购经费发挥最大效能,围绕电子资源的使用统计和成本效益评估成为图书馆界热衷的工作主题。

  COUNTER(Counting Online Usage of NetworkedElectronic Resources)标准实施规范从 Release 4(R4)更新到 Release 5(R5),在报告体系、度量指标、元素属性、SUSHI 协议等方面发生很大变化,解决了 COUNTER R4 的统计复杂、术语歧义、定义模糊问题[2]。此外,数据库商为加强对电子资源数据及读者隐私数据保护,数据库 Web 服务协议由传统的 HTTP 纷纷转变为 HTTPS。在 COUNTER 标准、服务协议双重变化的背景下,图书馆亟需采用合适的技术方案实现对电子资源的访问统计。早期不同数据库商提供的使用统计报告格式、计量指标各异,图书馆难以对采购的电子资源进行横向对比分析。

  为此,国际上研制发布了 COUNTER、ICOLC、ISO 11620、NISO Z39.7 等众多电子资源访问统计标准,在国内,教育部图工委和文化部相继发布《高等学校图书馆数字资源计量指南》《图书馆数字资源统计规范》,其中 COUNTER 是最受公认的标准[3]。COUNTER 标准由图书馆、数据库商、出版商协同开发,旨在为图书馆提供一致性的、可信的、可对比的使用数据。COUNTER 标准最早发布于 2003 年,经历 4次修订,最新版本为 2019 年发布的 COUNTER R5。尽管 COUNTER 标准最受认可,但仍存在局限性:

  (1)在 COUNTER 标准执行方面,国外数据库商基本能够遵循,国内唯有同方知网遵循,其他数据库商局限于只提供登录次数、下载量、检索量、浏览量等指标数据。(2)数据库商提供的报告中的指标数值的准确性、真实性无法保障。原因是数据库商可能没有按照 30 秒内双机操作仅计数一次的数据处理机制执行,也可能为了商业利益,提供不真实的、虚高的指标数据。

  (3)数据库商提供的报告在时效方面通常存在一个月的滞后期,无法实时查询电子资源使用情况。(4)数据库商提供的报告仅对在远程云端部署的电子资源进行统计,没有覆盖图书馆本地的镜像资源、特色资源。(5)COUNTER 报告是以特定格式的表格显示指标数值,无法进行可视化展示,也无法对电子资源进行用户行为、学科资源保障等深层次的数据挖掘与分析。为了解决上述的局限性问题,图书馆应掌握主动权,通过自主研发或采购商业平台的方式,客观、真实地统计电子资源使用情况。

  1 研究现状

  近年图书馆学界围绕电子资源使用统计主题,产生了很多研究成果,研究主题分为COUNTER 标准、技术方案、SUSHI 扩展应用 3 个方面。在 COUNTER 标准方面,阐述R4 的特征及发展方向[4],阐述 R5 的新特性及应用场景[5-7]。在技术方案方面,或设计集成统一身份认证的网关门户,将用户访问请求重定向到各电子资源数据库,通过收集网关日志对电子资源使用分析统计[8] ;或从防火墙日志中提取用户行为数据并进行访问量统计[9];或采取旁路部署、端口镜像的方式采集网络出口流量,通过 WinPcap、SharpPcap 网络抓包软件进行数据包的监听、捕获、解析,并将解析字段存放于关系型数据库做进一步统计分析[10-11]。

  也有学者以用户异常行为管控为视角进行研究,雷东升[12]利用国外代理服务器EZproxy 中的日志数据,挖掘恶意下载、多次登录等异常访问行为,保障合法用户的使用权利;刘莉[13]通过对出口流量进行数据报文分析、统计,下载量达到阈值时阻断访问,从而防范电子资源恶意下载行为。以上学者都是基于 HTTP 协议访问电子资源的场景模式下,对电子资源使用进行统计分析,针对基于 HTTPS 协议访问的电子资源使用统计的研究较少,仅陈广[14]基于策略路由和 Fiddler 代理程序实现电子资源访问信息的解密,并在此基础上设计电子资源使用统计分析系统。

  在 SUSHI 扩展应用方面,陈大庆[15]设计电子资源使用平台,通过 SUSHI 协议、DRAA 平台、第三方知识库等多信息源收集 COUNTER 报告,并扩展实现可视化分析、自定义报表生成功能,给图书馆带来重要的应用价值;朱玲[16]基于复旦光华公司的 ERU 和同方知网公司的 DRAS 两个商业化产品,从信息丰度、准确性、及时性等指标对两个产品获取的数据质量进行评估。

  当前电子资源统计技术架构分为网关日志和旁路监听这两种模式,网关日志模式是对流经如防火墙、代理、VPN 等网关设备的 Web 访问日志,进行日志采集、过滤、统计处理;旁路监听模式采用端口镜像的方式,将机构的主干网出口流量复制到服务器,并对监听捕获的数据包进行逐层解析,再进行过滤、统计处理。

  两种模式从监控控制、实时统计、网络风险、网络条件方面比较,各自存在优劣势。数据采集方面,网关日志模式采集的日志数据,包括客户端 IP、服务器的 IP、URL、浏览器类型等信息,数据维度不够丰富,无法实现深层次的挖掘分析。旁路监听模式通过解析数据包能够获取TCP 传输层端口信息、网络层的 IP 信息、应用层的 HTML 页面内容,进而可以提取到电子资源类型、名称等数据,数据丰富度较高。与此同时,下载行为监控、控制方面,两种模式都可以实现监控预警,但只有在网关日志模式下,用户的访问请求和应答都经过网关设备,对恶意下载行为可以进行拦截和阻断。

  实时统计方面,两种模式都要经过对日志或流量进行采集、过滤、解析并转储为关系型数据的处理流程,难以做到真正的实时统计,只能实现近实时统计,不同的是旁路监听模式对数据包进行应用层、网络层的分层解析,需要消耗较多的计算资源,实时性略低于网关日志模式。网络风险方面,网关日志模式承载用户访问电子资源的业务通道,存在单点故障风险。而旁路监听模式的特点是数据采集与业务分离,不会造成单点故障。

  网络条件方面,两种模式都不用改变原有的网络拓扑结构,但部署位置有所不同,网关日志模式可以部署在机构局域网任意位置,而旁路监听必须部署在网络出口位置,对于高校而言,图书馆与信息中心是不同的职能部门,校园网出口流量覆盖全校用户科研、学习、社交等应用场景所产生的行为信息,出于保护用户隐私数据考虑,信息中心通常难以给予工作支持与配合。通过比较分析,图书馆可以结合自身的需求和条件从中选择合适的模式。据笔者实际调研情况来看,绝大多数图书馆在实施项目时,源于网络风险因素的考虑,会选购基于旁路监听方案的商业化软件。

  2 基于 Nginx 的中间人技术过去

  数据库商提供的电子资源访问都基于 HTTP 协议,HTTP 协议采用明文传输数据,数据容易遭受窃听或篡改。为此,2017 年开始,数据库商纷纷转变为提供基于 HTTPS 协议提供访问服务。HTTPS 是在 OSI 七层网络模型中的传输层与应用层之间引入安全层,引入 SSL/TLS 协议对数据进行加密传输,避免数据遭受窃听或篡改的风险。

  对于 HTTPS 协议访问的电子资源,网关日志模式和旁路监听模式在缺失电子资源服务器 SSL 证书的情况下,无法加密的原始请求和响应信息进行解密。采用中间人技术能有效解密 HTTPS 协议数据,中间人技术,指由中间人分别与服务器、客户端建立 SSL 连接,首先模拟客户端身份对服务器发起请求,接着模拟服务器身份向客户端返回响应,整个通信过程对于客户端而言是透明的。由于中间人介于客户端与服务器之间,中间人能够获取客户端与服务器两者之间加密传输的数据。

  充当中间人角色的设备可以是SSL网关或部署代理程序的服务器,由于 SSL 网关需要购置高额的网关设备,而且 SSL 网关本质上仍是网关日志模式,存在数据采集丰富度不足、扩展性较弱的局限性[17],因此本文选取后者充当中间人,该方案对图书馆而言既经济又高效。支持中间人技术的代理程序如 Fiddler、Charles、Whistle 等,这些代理程序属于正向代理,可以捕获和解析数据包,记录客户端和服务器之间往返的请求和响应。

  在陈广[14]提出的电子资源使用统计模型中,首先是在核心交换机上配置基于访问控制列表(ACL)的策略路由,当电子资源的目标 IP 地址与 ACL 匹配时,包转发的路由下一跳为安装 Fiddler 代理程序的监控分析服务器,接着通过监控分析程序对电子资源访问数据接收、分析与统计。该方案具有一定的借鉴意义,但存在几点不足:

  其一,部分电子资源服务器采用内容分发(Content Delivery Network,CDN)加速功能,IP 地址经常变动,需要动态维护更新 ACL,对于高校图书馆而言,图书馆与信息中心是独立的职能部门,频繁地依托信息中心更新ACL,持续性实施较为繁琐、困难;其二,没有统计参照标准,统计的指标维度局限于下载量,缺乏系统性、完整性;其三,Fiddler 的压力载荷有限,不适用于并发用户数较高的高校场景。

  本文所做的贡献包括:

  一是采用反向代理软件 Nginx 作为中间人获取客户端和服务器端交互的加密数据,在交互过程中,Nginx 的 URL 重写功能将 URL 重写并映射至数据库商的平台 URL,由于数据库商的平台 URL 基本不会变动,从而避免了上述方案的限制;二是对 R5 标准的报告体系进行解读,并以此作为参照设计软件架构,旨在生成规范化的电子资源使用报告;三是 Nginx 以高性能、高并发、企业级的特性著称,采用 Nginx双机方式部署,实现自动故障切换,从而避免在实际生产环境中,出现单点故障风险。Nginx 是一个具有高性能的并发处理能力的反向代理和 Web 服务器软件,在互联网企业中得到广泛的应用。反向代理技术常应用于负载均衡设备,将客户端的请求按照不同的策略分发到后端服务器,以提高多用户并发请求的处理能力。

  由于 Nginx 承载了访问电子资源的业务流量,为了保障系统的高可用性,避免发生单点故障,可以通过 Keepalived 软件的虚拟冗余路由协议(Virtual Router Redundancy Protocol,VRRP)实现双机热备,原理是两台服务器选举产生主服务器,通过主服务器中的虚拟 IP 地址对外提供服务,同时,主备服务器互相监测心跳信号,当主服务器出现故障,虚拟 IP 地址自动切换到热备服务器,提供不中断服务。由于中间人使用自签发或第三方的 SSL 证书,中间人拦截获取客户端传输的请求密文后,直接利用自身的密钥进行解密。同时中间人掌握了服务器的证书密钥,对于服务器的响应密文后,可以利用服务器授予的密钥进行解密。

  3 COUNTER 报告体系

  3.1 COUNTER 报告格式COUNTER R5 的报告由 R4 的 27 个精简归整为 17 个[18],COUNTER R5 的报告由主报告和视图组合而成,为满足用户的个性化统计需求,用户可以对主报告配置过滤属性,从而生成视图报告,同时 R5 提供了预配置的标准视图报告。COUNTER R5 主报告分为 PR、DR,TR、IR4 种,分别对应平台(Platform)、数据库(Database)、标题(Title)、条目(Item)不同的统计粒度,并派生出 13 个标准视图报告。其中 TR 主报告包含的标准视图的种类及说明如表所示,从不同角度揭示用户访问电子书与期刊的活动情况。

  3.2 COUNTER 报告属性

  COUNTER R5 的报告属性除延用COUNTER R4 中的关于电子资源的Print_ISSN、DOI等描述性属性外,新增了其他属性,主要有数据类型(Data_Type)、访问类型(Access_Type)、访问方法(Access_Method)、计量类型(Metric_Type)这五种。

  数据类型用于区分资源类型,除了原有的平台、数据库、期刊、图书、多媒体外,新增数据集、书段、学位论文、报纸或新闻以及知识库条目等项,极大丰富了电子资源类型。访问类型用于归类资源获取方式,包括受控、开放获取、延迟开放获取等项。获取方式用于区分用户行为,包括常规、文本数据挖掘两项。度量类型用于定义统计指标,包括检索、访问与请求、拒绝访问三大类,其中检索包括常规检索、联合检索、自动检索、平台检索四项,拒绝访问包括未授权、并发超量两项,访问与请求是 R5 新增度量类型,详情见下一个章节。

  3.3 COUNTER 度量类型

  COUNTER R5 将用户活动分为请求(Requests)和访问(Investigations)两种类型,请求是对全文或章节的浏览和下载的用户活动,访问是包含请求在内的所有类型的用户活动。

  COUNTER R5 将计量方式(单一/合计)、对象类型(标题/条目)、行为类型(请求/访问)三种对象进行组合,形成细粒度的度量指标,从而反映用户具体的活动行为。度量指标总共有六个,分别是唯一标题请求(Unique_Title_Requests)、唯一标题访问(Unique_Title_Investigations)、唯一条目请求(Unique_Item_Requests)、唯一条目访问(Unique_Item_Investigations)、合计条目请求(Total_Item_Requests)、合计条目访问(Total_Item_Investigations)。

  唯一条目是对在一个会话中用户的重复操作不被累计,只计数 1 次,这里的条目可以是文章、图书章节或多媒体文件。唯一标题是针对图书的度量指标,由于图书可以作为单个 PDF 或多个章节进行下载,唯一标题对一个会话中多次用户整本下载或以分章节下载图书,都只计数一次。合计条目是对用户的重复点击行为进行过滤后的累计统计值,过滤机制是对一个用户会话中用户 30 秒以内的重复点击行为只计数 1 次。

  4 系统设计

  4.1 系统架构设计

  包括基础设施、数据源、采集层、存储层、表现层四个部分。基础设施层方面,为了保障 Nginx 网关系统、统计系统的稳定性,笔者共搭建三台高性能 Windows Server 服务器(8 核 32G 内存),其中两台作为双机热备的网关服务器,一台作为数据库及统计分析服务器。

  数据源层是通过 Nginx 的反向代理功能实现用户对不同电子资源数据库的访问,同时将用户的访问进行过滤、页面解析,并转储到数据存储层。Nginx 作为电子资源数据库的网关入口,配置参数主要有 URL 重写、并发数限制,URL 重写指内部 URL 与不同远程数据库 URL 的关系映射,例如知网的期刊、学位论文资源的访问 URL 为 kns.cnki.net。并发数限制包括 TCP 连接数和 HTTP 请求数,用于防范恶意连接电子资源数据库服务器和超量请求下载资源,通过 http_limit_conn_module 和 http_limit_req_module 模块分别限制同一 IP 并发连接数和请求数。

  证书申请可以通过开源的 SSL 软件 OpenSSL 自签发,或者从CA 机构 Let’s Encrypt 申请免费证书。Nginx 的第三方模块 Lua-Nginx,将 Lua 解释器集成于 Ningx 中,便于开发者使用 Lua 脚本语言灵活地扩展业务功能,并且采用非阻塞、异步机制执行脚本,不会影响 Nginx 的高并发处理性能。Lua-Nginx 模块的执行处理经过初始化(Initialization)、重写/访问(Rewrite/Access)、内容(Content)、日志(Log)这四个阶段[19]。

  本方案中,通过 Lua-Nginx 模块在 Content 阶段编写 Lua 脚本以实现 Nginx 日志的过滤、HTTP 报文中响应体(Response Body)的获取、电子资源元数据解析及最后的向数据存储层插入用户活动记录等操作。Nginx 的日志文件 access.log 保留用户访问行为的原始记录,便于在电子资源使用的统计数据发生偏差时,可以追溯分析具体原因。数据存储层是通过 SQL Server 关系型数据库存放多种相关数据,包括数据库基本信息、期刊、图书等资源清单,记录用户访问电子期刊/图书等用户行为信息。

  表现层采用 C#语言开发 Web系统,系统后台功能包括:对资源清单、URL 规则等元数据的管理;参照 COUNTER 标准中的报告格式、度量类型等规范,关联整合元数据及统计数据生成统计报表;通过日志查询用户访问行为信息和阻断访问信息;结合百度公司的 Echarts 可视化组件以图表形式展示电子资源使用情况。

  4.2 关系数据库设计

  根据 COUNTER R5 的 TR 主报告及标准视图的格式规范要求,笔者在关系数据库中创建了四张表,分别是数据库信息表、资源清单表、用户活动记录表、用户活动统计表。其中数据库信息表存放电子资源数据库的名称、访问 URL、所属平台名称基本信息,包括;资源清单表存放期刊及图书的 ISSN/ISBN、文献名等元数据,由资源建设部提供 EXCEL 格式数据,并导入数据库;URL 规则表存放用于判断用户浏览摘要、浏览作者、下载等行为特征的 URL 正则式规则;用户活动记录表存放详细的用户行为信息,其中 Section_Type(节段类型)、Data_Type(资源类型)、Activity_Type(活动类型)三个字段数值通过 URL 规则进行匹配获取。

  5 系统实现

  中国矿业大学图书馆于 2021 年 6 月-7 月投入测试该系统,选择已购置并且读者使用率较高的中文的知网的期刊及外文的 Springer 的期刊和图书作为测试数据库,并组织部分馆员发起真实的用户访问请求,详实记录每一次访问行为信息,包括 IP 地址、访问 URL、文献题名、访问时间等。

  其余类型报告由于篇幅原因不做展示。通过将人工测试汇总的记录与系统后台的日志数据做审查校对,结果表明记录完全匹配,数据的准确性、完整性均有所保证,为下一步扩大数据库应用范围提供借鉴和经验。

  6 结语

  在 COUNTER 标准修订、数据库 Web 服务协议更替的背景下,本文尝试采用 Nginx软件作为中间人的方案对 HTTPS 协议下的电子资源访问行为数据进行解密、分析与统计,实践证明,该方案切实可行,能够为图书馆提供真实、准确、一致性的电子资源使用统计数据,提高资源建设的工作效率,不足之处是笔者在实践中只针对期刊、图书电子资源生成 TR 报告,下一步将扩展生成 PR、DR、IR 报告,使得报告体系更加全面。

  近年来,我国相继颁布关于网络安全、数据安全、个人信息保护的法规,未来电子资源使用统计系统,在保护用户数据安全及隐私的前提下,将结合校园身份认证平台,从内容级别统计用户访问行为,为用户建立兴趣模型及画像,分析挖掘学科研究热点,指导图书馆引进贴合用户需求的数据库产品,推动学校的学科建设进一步发展。

  COUNTER 标准至今历经 18 年发展,报告体系愈加完善,然而大多数数据库商因为缺乏约束,并没有遵循 COUNTER 标准生成统计报告,给图书馆资源采购决策和事实数据统计工作造成一定的影响。因此,图书馆应联合 DRAA、JALIS 等联采机构在电子资源采购谈判与合同签署环节中约定数据库商提供 COUNTER 格式的统计报告,并保证各指标数据的真实性、准确性。

  同时,还应约定部署符合 SUSHI 协议的服务,便于图书馆自动收割COUNTER 报告,结合电子资源管理系统(Electronic Resource Management System,ERMS)、图书馆服务平台(Library Service Platfrom,LSP)对电子资源使用数据进行成本与效益核算、学科资源保障评估等应用分析。对于数据库商而言,推进 COUNTER 标准的准确解读和应用实践,同样是件有益的事情,便于了解客户群的使用情况与使用习惯,指导其优化电子资源的内容结构与质量,从而发挥更大的行业竞争力,增强客户黏性和忠诚度。

  参考文献

  [1]2019 年中国高校图书馆发展报告[EB/OL].[2020-11-16].

  [2] The COUNTER Code of Practice Release 5.02[EB/OL].[2021-09-28].

  [3] 胡大琴.中文数字资源使用统计数据的调查研究[J].图书情报工作,2017,61(15):104-110.

  [4] 李洪.新版 COUNTER 的特性及未来发展[J].中国图书馆学报,2018(12):29-37.

  [5] 候景丽.COUNTER R5 的新特性及对图书馆的影响[J].图书馆杂志,2018(12):46-55.

  [6] 张赟,玥秦鸿.COUNTER5 规范解析与特征分析[J].图书情报工作,2019,63(7):47-55.

  [7] 杨巍,叶仁杰,吴元业,林伟明.COUNTER Release 5 的新特征及其应用研究[J].大学图书馆学报,2020(1):18-25,41.

  [8]闫小弟,邵晶,周奇,等.电子资源利用统计网关系统的设计与实现[J].现代图书情报技术,2008(8):97-100.

  作者:王大阜,邓志文,贾志勇

转载请注明来源。原文地址:http://www.xuebaoqk.com/xblw/7465.html

《新时期电子资源使用统计系统研究与应用》