专访丨从技术流派到实际应用，邱培峰全面解析向量数据库的选型要点

2024-06-11

本文转载自公众号 IT168企业级《从技术流派到实际应用，邱培峰全面解析向量数据库的选型要点》

IT168 特别策划了《向量数据库选型指南》，笔者通过对话一线技术专家，全面剖析向量数据库的最新发展动态与核心技术优势，分享各个行业实际应用中遇到的挑战及成功案例，为用户在选型过程中提供有力支持。

本期，我们有幸采访到了拓数派向量数据库负责人邱培峰，针对向量数据库的技术路线选择，以及 PieCloudVector 有哪些独特的优势，向量数据库未来的发展趋势，以及选型建议等问题进行了深入交流。

向量数据库选型三大关键点

向量数据库作为专为向量搜索而设计的数据库，其学术研究和产业实践均取得了显著进展。然而，随着大语言模型技术的突破，与自然语言紧密相关的向量数据量呈指数级增长，这不仅加剧了对高效搜索的需求，还衍生出对向量与标量数据混合管理的新挑战。

传统数据库在应对向量与标量数据混合查询时显得力不从心，无法充分适应多模态数据处理和高效的相似度搜索复杂场景，难以满足企业日益增长的业务需求。而向量数据库擅长容纳图像、音频、文本等多模态数据，并通过将这些数据映射为向量表示，利用向量相似度进行关联和检索。

邱培峰认为，“在选择向量数据库时，用户需要综合考虑向量算法、通用数据管理和配套工具生态三个方面。”同时，还需要结合具体的业务需求和技术要求进行评估和测试，以选择最适合自己的数据库产品。此外，随着技术的不断发展，还需要关注数据库产品的更新和升级情况，以确保其能够持续满足业务需求。

向量算法优化

向量搜索算法作为向量数据库的核心功能，扮演着举足轻重的角色，不同算法依据特定场景和性能需求各有千秋。用户在评估时，核心关注点通常集中于几个关键指标：每秒查询量（QPS）、召回率（即准确度）、CPU 与内存资源消耗，以及 GPU 加速支持。

这些性能指标之间往往需要取舍，单一算法无法在所有维度上都达到最优。因此，提供更多样化的算法选项和细致的参数调节能力至关重要，这有助于用户在各项性能指标间灵活找寻最佳平衡点，进而拓宽数据库的适用场景和提升其泛用性。

通用数据管理强化

通用数据管理是向量数据库不可或缺的组成部分，关键在于有效整合向量数据及其伴随的元数据，如原始文本、创建时间、用户标识、来源路径或 url 等，这些附属信息统称为标量数据，对向量的搜索最终是要反映到这些关联信息上面。

数据一致性、操作原子性、混合查询、多用户、权限管理等是衡量一款向量数据库通用数据管理能力的关键指标。

配套工具生态完善

配套工具生态系统直接关乎向量数据库的用户友好度与实用性。一些关键的优化点涵盖了 SDK 开发、数据导入导出、备份恢复、数据可视化，以及与大语言模型生态的集成等方面。

向量数据库的两种技术流派

当前向量数据库技术领域分化为两大流派：一方是以 Pinecone、Zilliz 和 Chroma 为代表的专有向量数据库，它们凭借卓越的向量检索速度著称，但面对复杂多维的通用数据处理时，灵活性略显不足。

另一方则是传统数据库如 PostgreSQL，通过集成如 pgvector 之类的扩展模块，增强了处理向量数据的能力，尽管在通用性上有所提升，却难以匹敌专有向量数据库在性能和扩展性上的表现。

实际上，前者侧重于向量搜索算法为核心，围绕其构建功能完善的生态系统，诸如 Pinecone 与 Zilliz，它们多基于 faiss 这一强大开源库，性能表现直接受益于 faiss 的优化。后者则是在成熟的 SQL 数据库基础上，如 PostgreSQL，引入向量搜索功能，pgvector 即为典型例证，以此实现向量化数据的便捷查询。

在设计 PieCloudVector 时，拓数派力求融合两大技术方向之长，独辟蹊径。邱培峰指出，“我们选择将 faiss 组件与自研的基于 postgres 内核的关系型数据库对接起来，这样既能达到 pinecone 等产品同级别的性能，又能有基于postgres的通用数据库能力。”

PieCloudVector 为大模型提供长期记忆

拓数派秉承“数据计算，只为新发现”的使命，其大模型数据计算系统实现了AI数学模型、数据与计算的无缝融合，共同推动社会经济效益的持续增长。PieCloudVector 作为拓数派大模型数据计算系统的核心计算引擎之一，是大模型时代分析型数据库的升维之作，它专为多模态大模型AI应用而生。

在邱培峰看来，“相较于传统数据库，PieCloudVector 突破了技术瓶颈，实现了向量化存储和计算资源的弹性扩缩，提高了易用性和性能，增强了元数据变更功能，解决了数据一致性问题，并克服了安全性、可靠性和在线性方面的技术难题。”

据悉，PieCloudVector 全面兼容SQL:2016和 PostgreSQL 生态，支持行存和行列混存。基于 eMPP（弹性大规模并行计算）架构构建，PieCloudVector 不仅支持通过 SQL 接口进行非结构化数据检索，还能与结构化数据进行关联分析。

功能方面，PieCloudVector 基于 PostgreSQL 内核和 faiss 算法库打造，拥有完整的 ACID 数据管理能力，支持标量与向量的混合查询。它支持主流的近似最近邻（ANN）算法和向量编码或压缩算法，支持 SIMD/GPU 加速，并兼容 langchain 等大模型工具生态。

PieCloudVector 不仅支持灵活的单节点部署，更可轻松扩展至分布式架构。在分布式部署中，每个节点承载数据集的一个子切片，搜索结果经过跨节点汇总与重排序，确保返回全局最优解。这一架构设计使 PieCloudVector 能够随着节点数量的增加，线性扩展其数据处理能力，轻松应对海量数据挑战。

性能调优方面，PieCloudVector 提供了灵活的参数调整机制，特别关注于向量搜索算法参数的优化。以ivf算法为例，用户可根据需求调整总分区数和每次搜索分区数这两个核心参数。低分区数有助于缩短索引创建时间，而提高搜索分区数则能增强单次搜索的召回率（recall），但可能伴随搜索时间的增加。

数据安全方面，拓数派团队还为 PieCloudVector 量身打造了透明加密功能。这一功能使得数据在写入磁盘时即自动完成加密，无需用户额外操作，从而大大简化了数据加密的流程。透明加密功能不仅保证了数据的机密性，还确保了即使数据在存储介质上被非法获取，也无法被轻易解密和读取。

PieCloudVector 凭借其卓越的性能和广泛适用性，已成功在各行各业的大模型领域中落地应用，特别是在金融大模型领域展现了显著的优势。其中，东吴证券作为 PieCloudVector 的首个成功落地案例，为用户深入理解市场需求、优化产品设计和功能提供了宝贵的经验。

写在最后

随着技术的演进和市场需求的变化，邱培峰预见到，向量数据库的未来将朝向一个更为全面和智能的方向发展，即直接支持文字搜索的 AI 数据库。基于此，拓数派正积极探索集成大模型和内置向量转换等前沿技术，以实现文字到向量的自动转换和高效搜索。

展望未来，拓数派将持续关注市场和技术的发展动态，不断探索和创新，聚焦数据库在多模态大模型系统中的应用场景，并计划让 PieCloudVector 在这一领域进行深入探索。通过优化 PieCloudVector 对多模态数据的处理能力，为用户提供更为丰富和高效的 AI 应用体验。

嘉宾介绍

邱培峰拓数派向量数据库负责人

邱培峰目前在拓数派负责向量数据库PieCloudVector产品，聚焦于大模型与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验，在加入拓数派前曾就职于开源大数据平台Greenplum团队，担任外部数据源访问框架，对象存储访问扩展，ETL工具等产品模块的研发，并曾参与PostgreSQL多个版本的代码贡献，拥有丰富的存储模块核心开发和性能优化等实践经验。

关于 PieCloudVector

拓数派大模型数据计算系统（PieDataCS）目前支持 PieCloudDB Database、PieCloudVector 和 PieCloudML 三款计算引擎，其中第二款云原生向量计算引擎 PieCloudVector 是大模型时代的分析型数据库升维。PieCloudVector 助力多模态大模型 AI 应用，进一步实现海量向量数据存储、向量数据高效查询，支持和配合大模型的 Embeddings，帮助基础模型在场景 AI 的快速适配和二次开发，是大模型应用必备。