喵ID:Bbn5sc免责声明

Evaluating distance functions for clustering tandem repeats.

评估聚类串联重复的距离函数。

基本信息

DOI:
--
发表时间:
2005
期刊:
Genome informatics. International Conference on Genome Informatics
影响因子:
--
通讯作者:
Gary Benson
中科院分区:
文献类型:
--
作者: Suyog Rao;Alfredo Rodriguez;Gary Benson研究方向: -- MeSH主题词: --
关键词: --
来源链接:pubmed详情页地址

文献摘要

Tandem repeats are an important class of DNA repeats and much research has focused on their efficient identification, their use in DNA typing and fingerprinting, and their causative role in trinucleotide repeat diseases such as Huntington Disease, myotonic dystrophy, and Fragile-X mental retardation. We are interested in clustering tandem repeats into groups or families based on sequence similarity so that their biological importance may be further explored. To cluster tandem repeats we need a notion of pairwise distance which we obtain by alignment. In this paper we evaluate five distance functions used to produce those alignments--Consensus, Euclidean, Jensen-Shannon Divergence, Entropy-Surface, and Entropy-weighted. It is important to analyze and compare these functions because the choice of distance metric forms the core of any clustering algorithm. We employ a novel method to compare alignments and thereby compare the distance functions themselves. We rank the distance functions based on the cluster validation techniques--Average Cluster Density and Average Silhouette Width. Finally, we propose a multi-phase clustering method which produces good-quality clusters. In this study, we analyze clusters of tandem repeats from five sequences: Human Chromosomes 3, 5, 10 and X and C. elegans Chromosome III.
串联重复序列是一类重要的DNA重复序列,许多研究都集中在其高效鉴定、在DNA分型和指纹识别中的应用,以及它们在诸如亨廷顿病、强直性肌营养不良和脆性X智力低下等三核苷酸重复疾病中的致病作用。我们有兴趣根据序列相似性将串联重复序列聚类成组或家族,以便进一步探索它们的生物学重要性。为了对串联重复序列进行聚类,我们需要一个通过比对获得的成对距离的概念。在本文中,我们评估了用于产生这些比对的五种距离函数——一致性距离、欧几里得距离、詹森 - 香农散度、熵 - 表面距离和熵加权距离。分析和比较这些函数是很重要的,因为距离度量的选择是任何聚类算法的核心。我们采用一种新的方法来比较比对结果,从而比较距离函数本身。我们根据聚类验证技术——平均聚类密度和平均轮廓宽度对距离函数进行排名。最后,我们提出了一种多阶段聚类方法,该方法能产生高质量的聚类。在这项研究中,我们分析了来自五个序列的串联重复序列的聚类:人类3号、5号、10号和X染色体以及秀丽隐杆线虫三号染色体。
参考文献(1)
被引文献(14)
GENETIC-VARIATION AT 5 TRIMERIC AND TETRAMERIC TANDEM REPEAT LOCI IN 4 HUMAN-POPULATION GROUPS
DOI:
10.1016/0888-7543(92)90371-x
发表时间:
1992-02-01
期刊:
GENOMICS
影响因子:
4.4
作者:
EDWARDS, A;HAMMOND, HA;CHAKRABORTY, R
通讯作者:
CHAKRABORTY, R

数据更新时间:{{ references.updateTime }}

Gary Benson
通讯地址:
--
所属机构:
--
电子邮件地址:
--
免责声明免责声明
1、猫眼课题宝专注于为科研工作者提供省时、高效的文献资源检索和预览服务;
2、网站中的文献信息均来自公开、合规、透明的互联网文献查询网站,可以通过页面中的“来源链接”跳转数据网站。
3、在猫眼课题宝点击“求助全文”按钮,发布文献应助需求时求助者需要支付50喵币作为应助成功后的答谢给应助者,发送到用助者账户中。若文献求助失败支付的50喵币将退还至求助者账户中。所支付的喵币仅作为答谢,而不是作为文献的“购买”费用,平台也不从中收取任何费用,
4、特别提醒用户通过求助获得的文献原文仅用户个人学习使用,不得用于商业用途,否则一切风险由用户本人承担;
5、本平台尊重知识产权,如果权利所有者认为平台内容侵犯了其合法权益,可以通过本平台提供的版权投诉渠道提出投诉。一经核实,我们将立即采取措施删除/下架/断链等措施。
我已知晓