使用milvus-sdk-go的迭代器导出数据

news/2024/8/26 11:50:53 标签: milvus, golang, 开发语言

milvussdkgo_0">使用milvus-sdk-go的迭代器导出数据

迭代器是一种功能强大的工具,可帮助您使用主键值和布尔表达式迭代集合中的大量数据或所有数据。这可以显著改善您检索数据的方式。与传统的offsetlimit参数用法不同,后者可能会随着时间的推移而变得效率低下,而迭代器提供了更具可扩展性的解决方案。

当表数据很大,需要全量导出,我们可以使用迭代器,例如每次只查询1000行数据,直到所有数据查询完成,同时也可以减少服务器压力。

需要注意的是迭代器是一个客户端实现。

下面列举一个例子:写入3000条数据,每次读取100条,直至完全读完完毕。

package main

import (
	"context"
	"fmt"
	"io"
	"log"
	"math/rand"
	"strconv"

	"github.com/milvus-io/milvus-sdk-go/v2/client"
	"github.com/milvus-io/milvus-sdk-go/v2/entity"
)

const (
	milvusAddr     = `192.168.230.71:19530`
	nEntities, dim = 3000, 128
	collectionName = "hello_iterator"

	msgFmt                                     = "==== %s ====\n"
	idCol, randomCol, addressCol, embeddingCol = "ID", "random", "address", "embeddings"
	topK                                       = 3
)

func main() {
	ctx := context.Background()

	log.Printf(msgFmt, "start connecting to Milvus")
	c, err := client.NewClient(ctx, client.Config{
		Address: milvusAddr,
	})
	if err != nil {
		log.Fatal("failed to connect to milvus, err: ", err.Error())
	}
	defer c.Close()

	// delete collection if exists
	has, err := c.HasCollection(ctx, collectionName)
	if err != nil {
		log.Fatalf("failed to check collection exists, err: %v", err)
	}
	if has {
		c.DropCollection(ctx, collectionName)
	}

	// create collection
	log.Printf(msgFmt, fmt.Sprintf("create collection, `%s`", collectionName))
	schema := entity.NewSchema().WithName(collectionName).WithDescription("hello_milvus is the simplest demo to introduce the APIs").
		WithField(entity.NewField().WithName(idCol).WithDataType(entity.FieldTypeInt64).WithIsPrimaryKey(true).WithIsAutoID(false)).
		WithField(entity.NewField().WithName(randomCol).WithDataType(entity.FieldTypeDouble)).
		WithField(entity.NewField().WithName(addressCol).WithDataType(entity.FieldTypeVarChar).WithTypeParams(entity.TypeParamMaxLength, "50")).
		WithField(entity.NewField().WithName(embeddingCol).WithDataType(entity.FieldTypeFloatVector).WithDim(dim))

	if err := c.CreateCollection(ctx, schema, entity.DefaultShardNumber); err != nil { // use default shard number
		log.Fatalf("create collection failed, err: %v", err)
	}

	// build index
	log.Printf(msgFmt, "start creating index IVF_FLAT")
	idx, err := entity.NewIndexIvfFlat(entity.L2, 128)
	if err != nil {
		log.Fatalf("failed to create ivf flat index, err: %v", err)
	}
	if err := c.CreateIndex(ctx, collectionName, embeddingCol, idx, false); err != nil {
		log.Fatalf("failed to create index, err: %v", err)
	}

	log.Printf(msgFmt, "start loading collection")
	err = c.LoadCollection(ctx, collectionName, false)
	if err != nil {
		log.Fatalf("failed to load collection, err: %v", err)
	}

	// insert data
	log.Printf(msgFmt, "start inserting random entities")
	idList, randomList := make([]int64, 0, nEntities), make([]float64, 0, nEntities)
	addressList := make([]string, 0, nEntities)
	embeddingList := make([][]float32, 0, nEntities)

	// generate data
	for i := 0; i < nEntities; i++ {
		idList = append(idList, int64(i))
	}
	for i := 0; i < nEntities; i++ {
		randomList = append(randomList, rand.Float64())
	}
	for i := 0; i < nEntities; i++ {
		addressList = append(addressList, "wuhan"+strconv.Itoa(i))
	}
	for i := 0; i < nEntities; i++ {
		vec := make([]float32, 0, dim)
		for j := 0; j < dim; j++ {
			vec = append(vec, rand.Float32())
		}
		embeddingList = append(embeddingList, vec)
	}
	idColData := entity.NewColumnInt64(idCol, idList)
	randomColData := entity.NewColumnDouble(randomCol, randomList)
	addressColData := entity.NewColumnVarChar(addressCol, addressList)
	embeddingColData := entity.NewColumnFloatVector(embeddingCol, dim, embeddingList)

	if _, err := c.Insert(ctx, collectionName, "", idColData, randomColData, addressColData, embeddingColData); err != nil {
		log.Fatalf("failed to insert random data into `hello_milvus, err: %v", err)
	}

	if err := c.Flush(ctx, collectionName, false); err != nil {
		log.Fatalf("failed to flush data, err: %v", err)
	}
    // 使用迭代器,每次读取100行数据
	itr, err := c.QueryIterator(ctx, client.NewQueryIteratorOption(collectionName).WithOutputFields(idCol, randomCol, embeddingCol).WithBatchSize(100))
	if err != nil {
		log.Fatal("failed to query iterator: ", err.Error())
	}
	for {
		rs, err := itr.Next(ctx)
		if err != nil {
			if err == io.EOF {
				log.Println("iterator reach EOF")
				break
			}
			log.Fatal("failed to query iterator. next: ", err.Error())
		}
		var idlist []int64
		var randomlist []float64
		for _, col := range rs {
			if col.Name() == idCol {
				idColumn := col.(*entity.ColumnInt64)
				for i := 0; i < col.Len(); i++ {
					val, err := idColumn.ValueByIdx(i)
					if err != nil {
						log.Fatal(err)
					}
					idlist = append(idlist, val)
				}
			}
			if col.Name() == randomCol {
				randomColumn := col.(*entity.ColumnDouble)
				for i := 0; i < col.Len(); i++ {
					val, err := randomColumn.ValueByIdx(i)
					if err != nil {
						log.Fatal(err)
					}
					randomlist = append(randomlist, val)
				}
			}
		}
		log.Printf("\tids: %#v\n", idlist)
		log.Printf("\trandoms: %#v\n", randomlist)
	}

	// drop collection
	log.Printf(msgFmt, "drop collection `hello_milvus`")
	if err := c.DropCollection(ctx, collectionName); err != nil {
		log.Fatalf("failed to drop collection, err: %v", err)
	}
}

http://www.niftyadmin.cn/n/5558042.html

相关文章

Java面试八股之Redis Stream的实现原理及应用场景

Redis Stream的实现原理及应用场景 Redis Stream是一种在Redis 5.0版本中引入的数据结构&#xff0c;它主要用于实现高效的消息队列服务。下面我将详细解释其实现原理以及一些常见的应用场景。 实现原理 1. 结构组成&#xff1a; - Redis Stream由一个或多个消息组成&#xf…

CSS3 transform rotate(旋转)锯齿/元素抖动模糊的解决办法

要解决CSS3 transform rotate&#xff08;旋转&#xff09;锯齿/元素抖动模糊的问题&#xff0c;可以尝试以下方法&#xff1a; 使用硬件加速 为元素添加transform: translateZ(0);或者will-change: transform;属性&#xff0c;以启用硬件加速&#xff0c;提高渲染性能。 .elem…

一键发布:抖音短视频矩阵系统批量上传与智能混剪功能解析

在数字化时代&#xff0c;抖音短视频已经成为人们日常生活中不可或缺的一部分。无论是记录生活点滴&#xff0c;还是展示个人才华&#xff0c;抖音都为我们提供了一个广阔的舞台。然而&#xff0c;对于内容创作者来说&#xff0c;如何高效、便捷地发布短视频&#xff0c;实现内…

安卓自带camera hal3 实例README.md翻译

最近&#xff0c;遇到一个这样的问题&#xff0c;临时了解下这个驱动实现架构和特点&#xff0c;翻译如下 V4L2相机HALv3 camera.v4l2库使用视频Linux 2&#xff08;V4L2&#xff09;接口实现了camera HAL v3。这使得它在理论上可以与各种设备配合使用&#xff0c;尽管V4L2的…

自定义列表标记(dl-dt-dd)

dl:自定义列表容器标记dt:列表标题dd:列表内容 目录 例子 常用语网页的footer&#xff0c;例如 例子 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthde…

套用BI方案做数据可视化是种什么体验?

在数字化转型的浪潮中&#xff0c;数据可视化作为连接数据与决策的桥梁&#xff0c;其重要性日益凸显。近期&#xff0c;我有幸体验了奥威BI方案进行数据可视化的全过程&#xff0c;这不仅是一次技术上的探索&#xff0c;更是一次对高效、智能数据分析的深刻感受。 初识奥威&a…

待机电流过大

问题&#xff1a; 待机电流过大&#xff0c;有10几mA 原因&#xff1a; 漏电&#xff0c;芯片引脚没有关闭 验证过程&#xff1a; 对照原理图&#xff0c;把芯片几乎所有的管脚全部关掉。 比如LED管脚设置为输出模式&#xff0c;输出0 PWM管脚设置为输出模式&#xff0c…

uniapp开发钉钉小程序流程

下载开发工具 1、小程序开发工具 登录钉钉开发平台&#xff0c;根据自己的需求下载合适的版本&#xff0c;我这里下载的是Windows &#xff08;64位&#xff09;版本 小程序开发工具 - 钉钉开放平台 2、HBuilder X HBuilderX-高效极客技巧 新建项目及相关配置 新建项目 …