La tecnología de memoria de big data está mejorando la investigación del genoma

El almacenamiento de datos en memoria tiene el potencial de desbloquear el procesamiento de archivos de big data, y ahora los nuevos conceptos de virtualización lo están dando vida.

 Un símbolo de salud y el mundo en la pantalla virtual.

Natali_Mis, Getty Images / iStockphoto

Hace tiempo que siento que el almacenamiento y la memoria no se enfatizan lo suficiente en la planificación de TI, especialmente en el área de los archivos de datos muy grandes que caracterizan a los macrodatos.

Imagine, por ejemplo, que pudiera virtualizar y escalar el procesamiento en memoria para eliminar las obstrucciones de datos y los problemas de E / S y, al hacerlo, acortar exponencialmente el tiempo de obtención de resultados, ya sea en tiempo real o por lotes. Ahora imagina que, al mismo tiempo, sin perder velocidad, tu memoria puede tomar instantáneas continuas de datos y ofrecer una conmutación por error y una recuperación casi inmediatas cuando las necesites.

VER: Política de eliminación de datos electrónicos (TechRepublic Premium)

Para un instituto de investigación del genoma o una universidad que puede tardar días en procesar grandes archivos de datos genómicos, estos las capacidades serían invaluables.

En la Penn State University, los datos que se usaban en la investigación del genoma eran mayores que la memoria disponible. El software fallaba constantemente con errores de memoria insuficiente que impedían a los investigadores realizar la alineación de genes en ortogrupos grandes, que son conjuntos de genes derivados de un solo gen. Recibir un error OOM no es infrecuente con varias plataformas operativas, bases de datos y entornos de programación que no admiten una gran cantidad de memoria, por lo que el personal no se sorprendió. Sin embargo, desafortunadamente, estas cargas de trabajo del genoma pueden durar horas e incluso días. Cuando un trabajo falla, el trabajo debe reiniciarse desde el principio, y esto cuesta tiempo y dinero.

“Para casos de uso en tiempo real y de larga ejecución, cuando los conjuntos de datos alcanzan cientos de gigabytes o terabytes de tamaño, la causa principal de varios problemas de rendimiento es que los datos son mayores que la memoria, o DGM”, dijo Yong Tian, ​​vicepresidente de gestión de productos de MemVerge. “Las operaciones de administración de datos de rutina que deberían tomar segundos se vuelven tremendamente lentas. Cargar, guardar, realizar instantáneas, replicar y transportar cientos de gigabytes de datos lleva de minutos a horas”.

Tian dijo que el principal cuello de botella con las aplicaciones que usan big data es E / S al almacenamiento. “El SSD (unidad de estado sólido) más rápido es 1.000 veces más lento que la memoria, y el disco más rápido es 40.000 veces más lento que la memoria. Cuanto más crece el DGM, más E / S para el almacenamiento y más lenta es la aplicación”, explicó. .

Una solución al problema es la virtualización de recursos en memoria, que funciona como una capa de abstracción de software de recursos en memoria de la misma manera que VMware vSphere es una capa de abstracción para recursos informáticos y VMware NSX abstrae las redes.

La administración de datos de MemVerge utiliza memoria de acceso aleatorio dinámica virtualizada ( DRAM ) y memoria persistente para omitir las E / S que normalmente se requerirían para acceder a medios de almacenamiento como SSD , que es 1.000 veces más lento de acceder a pesar de sus importantes capacidades de almacenamiento de datos. Dado que la DRAM ya existe en la memoria, no hay “arrastre” de E / S en ella. La DRAM también puede almacenar datos.

El resultado final es que agrega mayor capacidad y memoria persistente de menor costo mediante el uso de DRAM. Esto le permite aumentar la capacidad de la memoria de manera rentable para que todos los datos quepan en la memoria, eliminando así el DGM.

VER: Plataforma de almacenamiento de datos Snowflake: una hoja de referencia (PDF gratuito) (TechRepublic)

¿Qué resultados están viendo las organizaciones?

“En un caso, Analytical Biosciences necesitaba cargar 250 GB de datos desde el almacenamiento en cada una de las 11 etapas de su proceso analítico de secuenciación de una sola celda”, dijo Tian. “La carga de datos desde el almacenamiento y la ejecución de código con E / S al almacenamiento consumió el 61% de su tiempo de descubrimiento (tiempo de finalización total para su canalización) … Ahora, con DRAM virtualizada, la carga repetitiva de datos de 250 GB de datos debe ser hecho en cada etapa de la canalización genómica ahora ocurre en un segundo en lugar de 13 minutos “.

Mientras tanto, en Penn State, todas las fallas del sistema se eliminaron con el cambio al almacenamiento DRAM virtualizado en memoria. Y si hay un bloqueo del sistema, las instantáneas en memoria se están produciendo tan rápido que es fácil reiniciar rápidamente desde el momento de la última instantánea.

La DRAM virtualizada es un gran avance en el procesamiento de macrodatos y la recuperación de datos de archivos muy grandes, y es útil más allá del entorno universitario.

Entre los ejemplos de aplicaciones de gran memoria en tiempo real en el sector comercial se incluyen la detección de fraudes en los servicios financieros, los motores de recomendación en el comercio minorista, la animación en tiempo real / edición de VFX la creación de perfiles de usuario en las redes sociales y análisis de riesgos de computación de alto rendimiento (HPC).

Tian agregó: “Al ser pioneros en una estructura de memoria virtual que puede extenderse desde las instalaciones hasta la nube, creemos que se puede crear una plataforma para la administración de macrodatos a la velocidad de la memoria de formas que nunca se creyeron posibles. los desafíos que enfrentan las aplicaciones modernas centradas en datos “.

Consulte también


Source link

Be part of our affiliated companies and receive a 20% discount.
www.onevirtualoffice.com
www.be1radio.com
www.rmcommunik.com
www.beonegroup.ca

Need Help?
Let our experienced staff help with virtual helpdesk. click for details.

Services:
– Laptop and Desktop Repair
– Virus and Malware Removal
– Computer Tune-up
– Remote Assistance
– Data Backup
– Data Recovery
– File Transfer and Sharing
– Hardware Diagnostics
– Antivirus Installation
– Software Installation
– Hardware Upgrades
– New System Setup
– Printer Troubleshooting
-Webmaster,hosting,Logo , Graphic design
-Social media Management
– Networking
– Install Windows Operating System (10, 8, 7, Vista and XP)

Business & Residential Toll Free: 1-800-432-1475 | Direct: (438)488-3296

About rasco

Be Happy the future is friendly.
Allrights Reserved 2007-2018 - Beone Magazine - powered by rasco