大型滑行道多路径推荐系统外文翻译资料

 2022-12-17 14:59:36

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


大型滑行道多路径推荐系统

何耀斌、张帆、叶莉、黄军、尹玲、徐成忠

文摘:本文提出了一种基于云的多路径推荐系统XGO,它可以使智能手机用户根据在真实出租车轨道上发现的知识来选择合适的路径。在现代城市,配备GPS的出租车会定期报告它们的位置,每天都会生成大量的轨道数据。通过挖掘这些海量的时空信息库,可以了解优化后的路径。我们提出了一个系统,该系统可以在基于云的平台上存储和管理GPS日志文件,探测交通状况,利用出租车司机路线选择智能,并推荐一个最佳路径或多个候选路径,以满足定制的需求。具体来说,我们利用基于Hadoop的分布式路由聚类算法来区分不同的路由,并通过潜在的交通节奏预测交通状况。我们使用一个真实的数据集(大于100GB)对我们的系统进行评估,该数据集由大约20000辆出租车在中国深圳的2个月内生成。实验表明,我们的服务可以实时提供合适的路线,并能准确地估计交通状况。

关键词:路由推荐;路由聚类;流量预测;云计算

1 介绍

在驾驶时间方面,寻找最短路线是智能城市领域的一个热门话题。它在全球范围内也具有重大的现实意义。快速行驶路线的选择主要取决于路线属性,如距离、限速、交通灯和其他交通限制。目前,商业在线地图提供了一种基于路段速度约束的最快行驶路径搜索服务。然而,驾驶路线的实际行驶时间明显不同于使用速度约束估计的结果[1]。事实上,它更依赖于路线上与时间相关的交通流。例如,在高峰时间或发生交通事故时,一条短路线可能会使驾驶员花费更多的时间。因此,路线选择应实时考虑交通状况以及路线属性。

实时交通的感知方式有以下几种:(1)通过配备全球定位系统(GPS)设备的出租车穿越大都市;(2)通过官方摄像机和道路上的传感器;(3)来自一些特别调查人员等。第一种方法被认为是收集实时和细粒度交通信息的最佳方法。实际、可靠、成本效益高。此外,交通信息报告定期出现(例如,大约0.5-2分钟[1-3])。随着时间的推移,大量的全球定位系统轨迹被生成。它的规模使得它成为研究人员一个巨大的数据知识挖掘挑战。在本文中,我们提出了一个路径推荐系统XGO。它可以让用户在没有地理信息系统(GIS)的帮助下,从大量的出租车轨道上选择合适的路径,并根据知识发现。我们采用基于云的解决方案来处理出租车产生的大量流量数据(每天约2GB),并实时响应大量查询。我们的系统不断地分析路线的相关性,并计算实时交通状况。当客户端请求到达时,XGO采用出租车司机路由策略,并为在线平台提供最佳路径。本文的贡献总结如下。

通过挖掘海量的滑行轨迹数据集和组团交通模式,提出了一种实时路径推荐系统,该系统能根据用户的需求和实时交通状况,给出最佳的路径匹配。此外,它可以准确预测这些路线周围的未来交通状况,以支持建议。我们将其作为真正的公共系统服务来实施,以证明其准确性和效率。

我们提出了一种聚类算法,可以在不借助地理信息系统的情况下区分不同路径和定制的搜索结果。为了满足近实时响应的要求,我们设计了一种有效的时空轨迹数据大数据集存储策略。实验表明,该方法能明显提高索引和搜索性能。

本文的其余部分组织如下。第2节概述了我们的系统。然后,我们将在第3节中介绍我们的存储策略和索引。接下来,我们分别在第4节和第5节中提出了一种路由聚类算法和动态推荐策略。我们将在第6节中评估系统的性能。相关工作见第7节。最后,我们在第8节结束本文。

2 系统概述

我们建议xgo作为我们的在线路由推荐系统解决方案,满足主要需求,包括实时性、准确性、低计算复杂性和可扩展性。它由大数据分析仪、出租车信息服务器、智能设备三部分组成,如图1所示。

大数据分析仪在基于Hadoop[4]的云服务平台上运行。HBase[5]作为我们的数据库嵌入到系统中。为了减少搜索时间,我们对海量数据的存储策略进行了改进。此外,我们还将路由集群和推荐算法包含在该组件中,以实现可用性和实时性。

我们的出租车信息服务器提供接口,将用户请求转换为命令,并发送到后端服务器,并将结果报告给用户。

图1系统架构。

乘客可以使用智能设备(如智能手机)与云服务平台进行通信,查询在线驾驶路线和交通信息。每个查询都应该包括起点和终点的位置,用户可以通过指向智能手机屏幕上的地图来指定这些位置。

3 空间轨迹存储策略

大数据分析仪的存储策略决定了其搜索性能。我们选择了一个nosql数据库hbase来存储大量的滑行轨迹数据集,因为它具有良好的可扩展性。HBase是Hadoop上的一个键值数据库,适用于对大数据的随机、实时读写访问[5]。此外,它还擅长存储非结构化数据。具体来说,由于不同的轨道具有不同的GPS点和不同的长度,GPS记录可以被视为非结构化数据。

3.1索引

索引解决方案如下所示。我们将地图平均分为44个子区域。构造了一个16个分支的平衡树来表示树节点在不同步骤中获得的所有子区域。我们以固定的顺序索引树中每个级别的节点,从1到16。每个节点还从其父节点继承索引作为前缀。这种分区和索引方案如图2所示。我们的分区策略类似于geohash[6]。我们的方法和geohash的一个主要区别是,我们对每个区域进行16个划分,对应于深圳的地理分布。

图2分区和索引方案。

本索引将深圳市地图分为232个区,用一个完整的8级树表示。由于每个叶区面积不超过100平方米,因此认为精度足够。因此,每个区域的索引是一个32位布尔字符串。字符串中从左到右的每一组四位数字都表示一个不同treelevel中区域的索引,从中我们可以以相应的精度推断其地理位置。为了存储一个GPS点,我们构造它的关键点作为该点所在区域的索引。因此,键的字典顺序为GPS点提供了一个逐步接近等级。为了搜索给定点的最近邻点,我们首先获取该点的键,并尝试使用相同的键来检索记录。如果找不到任何记录,我们将屏蔽密钥的最后4位数字,然后用剩余的密钥搜索,直到找到具有匹配密钥的记录为止。

3.2存储层次

为管理HBase中的数据,设计了两层分层策略。在底层,我们创建一个路径表来存储和索引为乘客服务的出租车的所有路线。路径表字段是一个字符串,包含GPS位置和属于此路径的所有数据点的时间戳。在上层,我们创建一个点表来存储所有的GPS点、GPS点所属的路径索引以及该点在相应路径上的位置。两个表的模式如图3所示。

这种策略可以使定制的查询功能成为可能,而以前的方法类似于refs。[1,7]仅支持有限数量的位置(地标)作为起点/终点。我们的系统可以提取经过用户选择的任意两个位置的路径。在给定两个位置后,我们从点表中搜索起点/终点的候选位置,

点表架构

纬度

经度

路径指数

在路径中的位置

路径表架构

路径索引

开始时间

的士身份证

路径信息

图3 HBase中的点和路径表模式。

根据他们的地理位置。然后,为每个点提取两组路径索引。然后,我们计算这两个集合的交点,并获取包含这两个点的路径索引。因此,可以从路径表中提取所有候选路由。

城市道路网的存储策略(图4)如图3所示。我们对道路网络数据采用相同的索引方法,以提供高效有效的范围查询,适用于地图匹配和地图减少架构中的交通量估计。这意味着GPS点附近的节点将存储在同一分区中。该策略可以快速查询特定GPS点附近的节点和道路。

4 路由聚类

根据第3节讨论的存储策略,可以检索所有经过两个给定位置的历史滑行路线。在本节中,我们对这些路线执行集群,而不进行传统的路线图匹配。它可以将原始GPS点合并为有限的候选路线,使路线分析更加准确。

4.1规范化

不同的路线可能包含不同数量的GPS点(即不同的尺寸)。首先要规范化路由数据,将所有路由投影到一个固定维度的统一空间中。

GPS位置可以看作是二维空间中定义的一个点,路线可以看作是由多个GPS点组成的离散集。假设有n个GPS的R路线的原始数据

节点表架构

纬度

经度

道路指标

道路表模式

道路

双向

形状

指数

结点

结点

点信息

图4 HBase中的道路网络表模式。

通过公式对路径数据进行变换后,所有路径都可以通过正则化投影到具有固定维数的特征空间中。将s表示为定义GPS位置的平面矩形坐标系(prcs)。S是以角逆时针旋转S的结果。

假设有一组路由fr1,r2,hellip;,rmg,它们都有相同的起点和终点:

(1)建造PRC S并将FR.X/转让给F.X./

(2)从S轴的x轴得到k个采样点[x1˛,x2˛;:::;xk˛],并且对于每个Xi,计算每个Rj j 2 ZC和1 6 J 6 m的Yi;j=FR(Xi)。同时,从s的y轴得到k个采样点[y;:::;y],对于每个y0 i,计

算每个rj(j 2 zc和1 6 j 6 m)的x.fr/,其中(fr/1是fRgamma;.

(3)Rj .j 2 ZC和1 6 j 6 n)的正则化是

OElig;.x1˛;y1˛;j/;.x2˛;y2˛;j/;:::;.xk˛;yk;j˛ /;

.x0˛1;j;y0˛1/;.x0˛2;j;y0˛2/;:::;.x0˛k;j;y0˛k/(5)

经过正则化后,路由R的表示由公式(1)改为公式(5)。正则化如图5所示。

有一个参数集f,kg。路线可以看作是二维空间中的曲线,而是控制路线。k是一个参数,用于控制解释路线的分辨率。当k较大时,可以捕捉到更精确和更详细的路线特征。如果k太小,它的形状特征可能会丢失。

图5 基于s(k=4)对ri进行正则化,计算fy 1,i,y 2,i,y 3,i,y 4,ig

4.2聚类算法

经过正则化后,所有路径都可以看作是投影到一个固定尺寸为2K的空间中,根据公式(5)中的表示,距离的计算定义为计算任意两条路径之间的差。假设函数f描述了任意维空间中任意两点之间的距离。考虑到正则化

f.x1˛;y1˛;a/;:::;.xk˛;yk;a˛ /;.x0˛1;a;y0˛1/;:::;.x0˛k;a;y0k˛/g, and Rb D f.x1˛;y1˛;b/;:::;.xk˛;yk;b˛ /;.x0˛1;b;y0˛1/;:::; .x0k;b˛ ;y0k˛/g, we define the difference of any two routes Ra and Rb is D.Ra;Rb/:

K

D. Ra;Rb/d xf.Xi~;Yi;A//;Xi;Yi;B//C ID1

K

X0 0 0 0

F..X I;A;Y I/;.X I;B;Y I/(6)

ID1

为了计算任意两个点之间的距离,我们采用三种距离(即欧几里得距离、曼哈顿距离和切比雪夫距离)。然后,式(6)可以简化为

K K(K K)

D

x x 0 0

D.Ra;Rb/f.yi;a;yi;b/ C f.x i

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20381],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版