近日,40001百老汇官网电子游戏联合深圳市环境科学院在《Frontiers in Environmental Science》杂志上发表了题为“FWAlgaeDB,an integrated genome database of freshwater algae”的研究成果,发布了淡水藻类基因组数据库——FWAlgaeDB,并阐述了数据库的结构及各功能板块。研究还基于40001百老汇官网电子游戏GenoLab M高通量基因测序平台对10个水库水体样本进行了宏基因组测序,在藻类物种鉴定方面,比较了FWAlgaeDB与NT库的差异及优势。
FWAlgaeDB是第一个专门的淡水藻类数据库,包含204个淡水藻类物种的生物学信息、基因组及功能注释信息,并整合BLAST在线比对软件,可以快速、准确地完成序列相似性比对和物种鉴定,对淡水藻类物种多样性保护及功能开发,具有重要作用。
藻类是水生态系统中重要的成员,对碳固定和初级生产力的提高发挥关键作用,并在可再生能源、水产养殖和制药产业中具有普遍应用。淡水藻类广泛分布于人类的生活环境中,包括淡水湖泊、沼泽、水库、河流、溪流及冰川等,占据了淡水环境的重要生态位,与人类生存息息相关。近几十年来,淡水藻类在水质监测、生物多样性评估与废水重金属去除等方面受到密切广注。
藻类基因组包含重要的遗传信息,是藻类功能开发及遗传改造的基础,为生态环境保护与生物资源利用提供重要的理论依据。然而,目前已发表的藻类基因组序列有限且分散。已有的藻类相关数据库,比如GenBank和JGI,没有对淡水和海洋藻类进行有效的区分,且不包含藻类的生物学信息,比如生活环境、分类学信息、形态学图片等;而AlgaeBase和Algae-Hub,虽然包含藻类基本的生物学信息,但是没有收录其基因组信息。因此,对于专注于淡水藻类的研究人员来说,目前已有的藻类数据库并不能满足其研究需求。基于此,40001百老汇官网电子游戏和深圳市环境科学院合作开发了一个综合性的、开放访问的淡水藻类基因组平台--FWAlgaeDB,助力淡水藻类研究和生态环境保护。
FWAlgaeDB目前包含来自于7个门204个物种的淡水藻类。其中,生物学特征信息来源于NCBI,公共数据库以及已发表的文献。基因组序列从NCBI下载,CDS及Protein序列一部分来源于NCBI已公布的文件(84个物种),另一部分来源于我们的基因预测(120个物种)。此外,我们对每个物种都进行了功能注释(NR,Swiss-Prot,GO,KEGG,COG和KOG),以帮助了解基因功能层面的信息。
FWAlgaeDB包括搜索模块、BLAST比对分析、基因组数据集(FWAlgae pool)/功能注释文件(annotation)模块,可以实现网站内的快速检索、相似性比对及基因组/注释文件的免费下载。
FWAlgaeDB集成了一个智能搜索模块,可以帮助研究人员快速检索感兴趣的数据。FWAlgaeDB支持不同的搜索方法:①输入分类学术语检索(支持不同分类学水平,如纲,目,科,属等),网站会输出相应水平上的物种列表以供选择。研究人员确定目标物种后,可以点击并跳转到特定页面浏览、下载相关数据。②精确检索,通过物种的科学名称、数据库编号或NCBI分类号来精确检索物种信息。FWAlgaeDB使用模糊匹配算法,即使搜索字符串或拼写不完整,也可以根据潜在相关性输出搜索结果。
展示204个淡水藻类的分类信息和基因组序列。淡水藻类的属和种按字母顺序排列在浏览界面上。每个物种都链接到一个特定的页面,包含其生物分类学信息、生活环境、NCBI登录号、地理分布、参考图片和相关文献,以及可下载的基因组序列。在本页面,研究人员可以下载相应的FASTA格式的基因组序列。此外,单击藻类名称将直接进入Annotation下载界面。
注释界面以表格形式呈现,研究人员可以单独选择或一键打包Genome、CDS、Protein和不同的数据库注释文件进行下载。为了更好地了解藻类基因组信息,我们还收集并注释了204种藻类的主要基因家族,包括ABC transport、细胞色素p450、转座酶、藻毒素基因簇等,供研究人员免费下载使用。本页内嵌的搜索工具也支持通过物种名称或数据库ID进行精确搜索。
FWAlgaeDB集成了BLASTN/BLASTP比对工具,研究人员能够将待查询序列(核苷酸或氨基酸序列)与整个数据库进行比对,并获得BLAST比对报告。研究人员可以在操作界面中粘贴FASTA序列或上传序列文件,快速搜索数据库中与待查询基因组或蛋白质序列相匹配的物种列表。数据库支持BLASTN、MEGABLAST和Discontiguous MEGABLAST比对,且可以使用高级命令行参数对搜索进行优化。
为了验证FWAlgaeDB的有效性,我们使用GenoLab M平台对10个水库水体样本进行了宏基因组测序,将测序得到的reads在FWAlgaeDB和NT藻类数据库中进行物种注释的分析和比较。
基于NT藻类数据库进行物种鉴定时,获得了极其庞杂的物种鉴定结果,且需要进一步区分是否是淡水藻类,后续的识别过程将极为复杂。NT数据库获得的海量数据可能会分散研究人员的注意力,并模糊一些重要信息。而基于FWAlgaeDB鉴定得到的物种,相对更为集中,且确定都是淡水来源的藻类。
另外,在NT数据库中检测到几个公认的海洋藻类物种(图中橙色标记),这是令人费解且无法解释的。因为样本来源于淡水水库,理论上不存在海洋种类。这些潜在的假阳性表明,FWAlgaeDB是鉴定淡水样本中藻类物种的更优选择。当然,如果要对这些假阳性物种进行确切的鉴定,还需要进一步的湿实验验证,如藻类分离、培养和PCR鉴定。
图6 FWAlgaeDB和NT藻类数据库对10个水库样本藻类物种鉴定的比较
基于上述分析,我们得出如下结论:
1、FWAlgaeDB是目前第一个专门针对淡水藻类的基因组数据库,包含204种淡水藻类的生物学特征及基因组信息,可助力水生态环境相关研究的开展;
2、FWAlgaeDB可以实现BLAST相似性比对及淡水藻类物种鉴定,且数据库中所有信息文件都提供开源、免费的下载;
3、相对于NT数据库,FWAlgaeDB更适合淡水样本的藻类物种鉴定。