Criterios de selección basados en sketches para el problema de similitud genómica.

dc.contributor.advisorHernández Rivas, Ceciliaes
dc.contributor.advisorFigueroa Toro, Migueles
dc.contributor.authorGuzmán Chacón, Álvaroes
dc.date.accessioned2025-01-23T19:19:45Z
dc.date.available2025-01-23T19:19:45Z
dc.date.issued2024
dc.descriptionTesis presentada para optar al grado de Magister en Ciencias de la Computaciónes
dc.description.abstractEl cómputo de similitud genómica es importante para distintas aplicaciones como clustering y clasificación taxonómica en área de genómica y metagenómica. Una de las métricas de similitud más utilizadas es el coeficiente de Jaccard. Debido al alto costo computacional de métodos tradicionales, la comunidad científica ha propuesto métodos de estimación basados en estructuras de datos probabilísticas llamadas sketches. Sin embargo, estos métodos aún pueden requerir un alto tiempo de cómputo para resolver el problema de encontrar todos los pares de secuencias genómicas cuya similitud supere un umbral. Una alternativa para enfrentar esta dificultad es utilizar algoritmos que permitan decidir, con alta probabilidad, si un par no es suficientemente similar, permitiendo reducir el tiempo de cómputo. A este tipo de algoritmos es a al que llamamos criterio de selección, ya que clasifica pares entre similares y no similares. Este trabajo propone dos criterios de selección basados en propiedades de la confianza en la estimación de sketches de cardinalidad y uno basado en el sketch Super MinHash con LSH. Los criterios son implementados y validados usando la colección de genomas RefSeq. Los resultados obtenidos muestran una alta sensibilidad y especificidad de los criterios propuestos, mejorando el tiempo de cómputo entre 2 y 10 veces usando cerca del 1% de espacio adicional.es
dc.description.campusConcepciónes
dc.description.departamentoDepartamento de Ingeniería Informáticaes
dc.description.facultadFacultad de Ingenieríaes
dc.identifier.urihttps://repositorio.udec.cl/handle/11594/12329
dc.language.isoeses
dc.publisherUniversidad de Concepciónes
dc.rightsCC BY-NC-ND 4.0 DEED Attribution-NonCommercial-NoDerivs 4.0 Internationalen
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectBioinformáticaes
dc.subjectGenómicaes
dc.subjectProcesamiento de datoses
dc.titleCriterios de selección basados en sketches para el problema de similitud genómica.es
dc.typeThesisen

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Guzmán_c_a_2025_MAG.pdf
Size:
2.4 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description:

Collections