swissprot数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实。sib和 ebi共有70多人的研究队伍,专门从事蛋白质序列数据的搜集、整理、分析、注释、发布,力图提供高质量的蛋白质序列和注释信息。swissprot数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数据库embl/genbank/ddbj、蛋白质结构数据库pdb以及prosite、printts等十多个二次数据库的交叉引用代码。expasy专门聘请了由200多位国际知名生物学家组成的网上专家评审团,并将swissprot数据库中的蛋白质分成200多个类别,每个类别由1位或2位评审专家负责,通过计算机网络进行审核。expasy网站上列出了这些评审专家的姓名、电子邮件地址和他们所负责评审蛋白质种类。用户若对某个蛋白质条目有疑义,可以直接和相应的评审专家取得联系。swissprot采用了和embl核算序列数据库相同的格式和双字母标识字。这种双字母的标识字对于数据库的管理维护比较方便,但用户在使用时却不很方便,特别对数据库格式不很熟悉的用户。expasy开发了面向生物学家的、基于浏览器的用户界面,特别是用可视化方式表示氨基酸特征表,使用户对序列特性一目了然,如二硫键、跨膜螺旋、二级结构片段、活性位点等。截止1998年6月,swiss-prot数据库包含约7万条序列,这些序列涵盖了5千多个不同种属,其中大部分来自于几种主要模式生物,如人、小鼠等。swiss-prot数据库的结构与其它蛋白质序列数据库不同。给出swiss-prot数据库中一个序列条目的实例。图中每一行由两个字母起始,用来说明每一行所代表的信息。起其中第一行以id开始,最后一行以双斜杠//结束。id行表示该序列的名称是opsd_sheep,共有348个氨基酸残基。swiss-prot数据库的id包含一定信息,如本例中opsd表示蛋白质名称缩写,而sheep表示该蛋白质分子来自于哪个物种,中间用下划线分隔。即这一蛋白序列是来源于绵羊的视紫红质(rhodopsin)。序列条目的标识符id随着版本的更新有可能改变,因此有必要采用能够唯一识别该序列条目的其它标识符。swiss-prot采用ac(accession number)作为表示某个特定序列的代码,具有唯一性和永久性。在文献中引用某个序列时,应以ac为准,而不是以序列名称或id为准。本例中,代码ac为p02700。采用ac代码的另一个好处是便于计算机处理。如果在ac行出现了几个代码值,那么应以第一个为准,它表示该序列在当前版本中的代码。下面的dt行提供了蛋白质序列提交到数据库的时间,及最近一次修改的时间等信息。描述行(de)可以有一行或几行,提供了对该蛋白质的简单说明。此例中,说明该蛋白质为视紫红质。下面的几行中提供了有关该蛋白质的基因名(gn)、物种来源(os)和分类学位置(oc)等信息。接下来是与该蛋白质相关的基本注释信息,包括文献信息、与测序有关的信息、以及对该蛋白质序列分析得到的与结构或突变相关的信息等。这些注释为用户提供了非常有价值的信息。基本注释信息后,是说明行(cc)。在cc行中按主题进行区分,其中,function说明该蛋白质的功能,ptm说明翻译后修饰,tissue specificity说明组织专一性,subcellular location说明亚细胞定位,similarity说明了与该蛋白质序列具有相似性或相关的某个蛋白质家族,等等。蛋白质序列具有与另一个蛋白质序列数据库pir的链接、与gpcr专门数据库的链接,以及与蛋白质序列模体数据库prosite的链接和与蛋白质结构域数据库prodom的链接。在dr行之后,是关键字行(kw)和特征表行(ft)。特征表包括对该序列特性的进一步注释,包括跨膜螺旋等超二级结构单元、配体结合位点、翻译后修饰位点等。特征表的每一行有一个关键字(如transmem)、特征序列的氨基酸残基位置(如37-61),以及注释信息的性质(如potential)等。swiss-prot数据库中的序列数据与蛋白质前体对应,如果想要获得成熟蛋白质的序列,可以参考特征表所提供的信息,即根据特征表所提供的信号区(signal),转运区(transit)或前肽(propep)等信息来推断成熟蛋白质或多肽序列。此外,chain和peptide两个关键字用来表示成熟蛋白质的位置。swiss-prot数据库的格式便于通过计算机软件进行查询,即通过对每行起始的标识字建立索引文件,即可方便地找到某一字段。