如雨后春笋一般出现的各种大语言模型
地学大语言模型
数字盆地辅助应用(语义索引加强)
公司现在有两个服务器运行着知识库以及大语言模型(LLM),地址如下:
其中每次问答的知识库来源采用了6个来源,Top2相关性的RSTS知识库+Top2相关性的Fess本地搜索结果+Bing搜索结果+公司网站内部搜索结果
长久以来,公司的数字盆地等大数据项目一直围绕着建立数据文件索引(文件搜索方式、关键字)、图形索引(WebGIS呈现、地质模型呈现)等技术实现,其核心原理在于对大数据中的矢量数据(如侧线信息、点信息、)进行抽取,实现索引,方便进一步的使用。
随着AI时代的到来,公司在传统的大数据管理模式下,增加了基于大语言模型的数据索引功能。简单来说,通过把文本转化为向量矩阵,使得基于向量、张量的运算得以加速(GPU加速,CPU的AVX512加速),所采用开源技术出自这里 text2vec。
在语言文本向量化之后,就可以通过提取语义信息,交给LLM(大语言模型),通过深度学习的算法Transformer,实现基于语言的分析、推理等功能。
更由于是语言模型,LLM天生对机器语言(编程语言)这种规则逻辑性高的语言,更为熟练,相比于人类的自然语言(中文、英文),编程语言具有逻辑明确、语法严谨的特点,所以在代码工作上,LLM有得天独厚的优势。
具体到常见的使用场景:
文档辅助工作
给定文档类型及内容,帮助拟定提纲
按照提纲和辅助的文档,帮助完成大篇幅的写作
会议总结等
英语翻译,AI的翻译,更为通畅准确
知识数据抽取分析
以选定地区的多年的地质报告为基础,提供综合的地质分析
总结各种报告、文献,帮助使用者快速阅读
数据的集中分析,趋势分析、异常数据的分析等
代码算法辅助
算法补全
加注释
纠错
解决bug提示
更由于LLM天生对编程语言的熟练,可以自然的通过编程语言对接各种接口,实现更进一步的自动化功能,简单的比如爬虫、图片分析描述、人类行为预测等。简单来说,只要可以通过文字语言描述的东西,LLM都可以参与进来。
下面是一些常用的使用场景截图(来源于多个模型,仅供展示):
地质概念查询:
代码辅助:
日常问答问题解答:
灵活的翻译: