Archivos de acceso aleatorio

Los archivos de acceso aleatorio nos permiten ir directamente a recuperar el registro deseado, sin necesidad de leer antes todos los anteriores. Solucionan de esta manera la principal limitación de los archivos de acceso secuencial, que era precisamente su método de acceso a los datos, la necesidad de recorrer todo el fichero desde el principio hasta llegar al punto que nos interesaba. Esta limitación se hacia cada vez más grande, según aumentaba el tamaño de nuestro fichero. Con un alto número de registros, los tiempos de lectura podían extenderse demasiado, hasta el punto de ser muy poco operativos y propiciar la migración a un fichero de acceso aleatorio.

Es importante reseñar que nuestra “base de datos”, si puede llamarse así, continuaba siendo un fichero.

He dicho antes que en los archivos de acceso aleatorio, podíamos ir directamente a recuperar el registro deseado, sin necesidad de leer antes todos los anteriores. Para ello era necesario conocer exactamente en que posición, dentro del archivo, se encontraba el registro que buscábamos. Pero.., ¿Cómo era posible saber en que posición se encontraba un registro?.

Básicamente, empleando dos reglas:

La longitud de registro estaba estrictamente definida. Es decir, todos los registros tenían la misma longitud, ocupaban el mismo espacio en memoria.
Y se emplea el número de registro, para posicionarnos en el registro deseado.

Siguiendo estas sencillas reglas, resultaba muy fácil saber en que posición de memoria comenzaba un registro. Supongamos que cada registro ocupaba 50 bytes, si queremos recuperar el registro 5 teníamos que irnos a leer a la posición 201 y acabábamos en la 250 (el registro 1 se extendería de la posición 1 a la 50, el registro 2 de la 51 a la 100, el 3 de la 101 a la 150, el 4 de la 151 a la 200, y finalmente el registro 5, de la posición 201 a la 250).

Tabla de contenidos

Características de los archivos de acceso aleatorio

Después de lo visto en el ejercicio anterior, ya tenemos que ser capaces de apuntar las principales características de los archivos de datos de acceso aleatorio:

Longitud fija de registro: Definimos una longitud de datos fija para cada campo y por extensión, para el registro.
Posicionamiento instantáneo al principio del registro a recuperar: No hay que recorrer el fichero desde el principio, como ocurría con los archivos de acceso secuencial.
Admiten apertura mixta: Podemos abrir el fichero de forma que soporte los modos de escritura y lectura, a la vez.
Admite acceso multiusuario: Si bien requiere que se establezcan zonas especificas y limitadas para que los distintos accesos estén controlados, y no se pisen unos a otros, este tipo de acceso permite que varios usuarios trabajen sobre el fichero de manera simultánea.
Dimensionamiento máximo del fichero: Al trabajar con una estructura de longitud fija de registros, lo habitual es fijar el número máximo de registros que puede almacenar el fichero, y de este modo definir el tamaño máximo que podrá ocupar en memoria, y reservar dicho espacio en la misma.

Soporte físico

El soporte físico para este tipo de ficheros es el disco duro, ya no podemos almacenar la información en cintas magnéticas, ya que estas no admiten físicamente el acceso aleatorio, y debido a su propio funcionamiento te fuerzan a un acceso secuencial.

Ejemplo de archivo de acceso aleatorio

Después de explicar como funcionan los archivos de acceso aleatorio, para entenderlo mejor, os propongo un ejemplo, un caso práctico: vamos a ayudar a Antonio a mejorar su productividad en su tienda SuperGades. El problema que tiene es que su fichero de proveedores, que es un fichero de acceso secuencial, tiene ya 1.000 registros, y cada vez que busca los datos de un proveedor tarda de media 1 minuto. Recordemos que todavía estamos en el siglo pasado y no contamos con mucha capacidad de almacenamiento ni de computación, otro gallo nos cantará cuando SuperGades halla crecido y evolucionado y estemos utilizando el Big Data.

Antonio sabe que ganaría mucho tiempo si obtuviera los datos del proveedor en no más de 5 segundos, y alguien le ha explicado que puede conseguirlo si migra todos sus datos a un archivo de acceso aleatorio.

Os propongo el siguiente ejercicio para recorrer el camino con Antonio y entender como funcionan los archivos de acceso aleatorio.

Paso 1: Fichero secuencial de partida

El fichero de proveedores de Antonio era:

Donde cada registro está compuesto de tres líneas consecutivas. Como este fichero ha crecido hasta 1.000 proveedores, vamos a trabajar con una versión “reducida” para hacerlo operativo.

Supongamos que ahora nuestro fichero es:

Frutas Gutierrez
Antonio Gutierrez
607454545
Hortalizas del Sur
Guillermo Morales
652854874
Azucarera Sevillana
Rodrigo Mendez
622525885
….
…..
…..
Huevos La Puebla
Araceli Arnedo
652879137
….
….
….
Arroces La Cigala
Maria Alvarez
677889922
<FIN>

Donde los puntos supensivos indican un espacio en el que habría varios registros, en total tendríamos 1.000

Paso 2: Definiendo la estructura de registro

Como habíamos visto, para poder implementar el acceso aleatorio, la longitud de los registros tenía que ser fija. Para definir la longitud de un registro, tenemos que definir las longitudes de sus campos.

Para nuestro fichero, podemos asumir que vamos a trabajar con caracteres ANSI, de esta manera cada carácter ocupará un byte.

Definimos la longitud en caracteres/ bytes de los distintos campos:

1 campo: 30 bytes (nombre del proveedor)
2 campo: 30 bytes (nombre del contacto en el proveedor)
3 campo: 9 bytes (número de teléfono del contacto)
4 campo: 0 bytes . Eliminamos la marca de fin de registro, ya que esta la usábamos realmente en un fichero de acceso secuencial para sincronismo. Ahora, con el acceso aleatorio, no vamos a usarla, sino que nos colocaremos en el inicio del registro que queramos leer, y leemos tantos caracteres como la longitud del registro, en nuestro caso, 69.

De manera visual, representándolo únicamente para el primer registro, sería algo así:

Estructura del registro — Estructura fija del registro del fichero de acceso aleatorio

Observamos que en aquellos campos en los que no estoy seguro de la longitud que tendrán los datos, los definimos con cierto margen, por lo que en la mayoría de los casos estaremos infrautilizando la memoria, reservando espacio para datos que realmente no necesitamos. No obstante hay que hacerlo de esta manera porque queremos asegurar que se pueden registrar los datos más largos que podamos tener.

Paso 3: Del fichero de acceso secuencial al fichero de acceso aleatorio

Definidas las longitudes de los campos, Antonio tendría que pasar todos los datos de proveedores a la nueva estructura de datos. Esto obviamente no se haría de forma manual, contaría para ello con un programa que realizaría esta tarea.

Paso 4: Accediendo a un registro completo

Si quisiéramos acceder al registro 777, nos colocaríamos en la posición 53.545 y leeríamos 69 bytes.

¿Cómo calculamos la dirección?. Sencillamente multiplicamos 69 bytes que ocupa cada registro por 776, lo que nos da un valor de 53.544 bytes. El registro 777 empezaría justo en el byte siguiente.

Paso 5: Comparativa aproximada de tiempos

En un fichero secuencial, para llegar al registro 777, tendríamos que leer todos los registros anteriores. Si bien, los registros serían más cortos, ya que no se reserva espacio extra en memoria que no se rellene con datos.

Supongamos que la media de la longitud del registro es de 50 bytes frente a los 69 bytes de longitud del registro del archivo de acceso aleatorio. Y que además, el tiempo de lectura de un carácter es de 1 milisegundo. Para cuando llegáramos al registro 777, habríamos leído: 50*776 = 38.800 caracteres, lo que nos hubiera llevado casi 39 segundos. Un tiempo de espera extremadamente alto.

Por el contrario, con el acceso aleatorio, sabiendo donde tenemos que posicionar el lector, es cuestión de milisegundos, es decir, prácticamente percibido por el usuario como inmediato.

Aquí es donde Antonio consigue una mejora de la productividad por la reducción considerable de los tiempos de espera.

Paso 6: Programamos un método para crear el archivo de acceso secuencial de partida

Lo primero que haremos será crear un archivo con los datos. Crearemos los proveedores que indicaba en pasos anteriores, y rellenaremos el resto de las posiciones con nombres de proveedores genéricos, al final tendremos un fichero con 1.000 registros.

El procedimiento que realizaría esta tarea sería:

def crear_archivo(file):
    # Abre el archivo en modo de escritura ('w')
    with open(file, 'w') as archivo:
        # Escribe algunos registros en el archivo
        archivo.write("Frutas Gutierrez\n")
        archivo.write("Antonio Gutierrez\n")
        archivo.write("607454545\n")
        archivo.write("Hortalizas del Sur\n")
        archivo.write("Guillermo Morales\n")
        archivo.write("625854874\n")
        archivo.write("Azucarera Sevillana\n")
        archivo.write("Rodrigo Mendez\n")
        archivo.write("622525885\n")
        for i in range(4,777):
            txt="Proveedor nº: "+str(i)+"\n"
            archivo.write(txt)
            txt="Contacto proveedor nº: "+str(i)+"\n"
            archivo.write(txt)
            txt="Tf:--"+str(i)+"\n"
            archivo.write(txt)
        archivo.write("Huevos La Puebla\n")
        archivo.write("Araceli Arnedo\n")
        archivo.write("652879137\n")
        for i in range(778,1001):
            txt="Proveedor nº: "+str(i)+"\n"
            archivo.write(txt)
            txt="Contacto proveedor nº: "+str(i)+"\n"
            archivo.write(txt)
            txt="Tf:--"+str(i)+"\n"
            archivo.write(txt)
    print("Guardados 1.000 registros de proveedores")

Llamamos al método:

file="fichero acceso aleatorio.txt"
crear_archivo(file)

Y obtendríamos el fichero:

Frutas Gutierrez
Antonio Gutierrez
607454545
Hortalizas del Sur
Guillermo Morales
625854874
Azucarera Sevillana
Rodrigo Mendez
622525885
Proveedor nº: 4
Contacto proveedor nº: 4
Tf:--4
Proveedor nº: 5
Contacto proveedor nº: 5
Tf:--5
Proveedor nº: 6
Contacto proveedor nº: 6
Tf:--6

…
Proveedor nº: 776
Contacto proveedor nº: 776
Tf:--776
Huevos La Puebla
Araceli Arnedo
652879137
Proveedor nº: 778
Contacto proveedor nº: 778
Tf:--778

…
Proveedor nº: 1000
Contacto proveedor nº: 1000
Tf:--1000

Paso 7: Transformamos nuestro fichero de proveedores a la nueva estructura fija

Tenemos que recorrer el fichero de proveedores y extender los datos en los distintos campos para que ocupen la longitud fijada en la nueva estructura. Para hacerlo visible rellenare los espacios añadidos con un punto “.” .

Para ello usaremos el siguiente procedimiento:

def pasar_secuencial_a_aleatorio(file1,file2):
    # Abre el archivo en modo de lectura ('r')
    lineas_acceso_aleatorio=[]
    with open(file1, 'r') as archivo:
        # Lee y muestra todos los registros
        print("Leyendo datos del archivo:")
        caracter_de_relleno = "."
        campo=1
        for linea in archivo:
            if campo==1 or campo==2:
                longitud_deseada=30
            elif campo==3:
                longitud_deseada=9
            linea=linea.rstrip("\n")
            linea_ale=linea.ljust(longitud_deseada,caracter_de_relleno)
            lineas_acceso_aleatorio.append(linea_ale+"\n")
            if campo==3:
                campo=1
            else:
                campo+=1
    with open(file2,"w") as archivo:
        for fila in lineas_acceso_aleatorio:
            archivo.write(fila)

Llamamos al procedimiento:

file1="fichero acceso aleatorio.txt"
file2="fichero_aleatorio_relleno.txt"
pasar_secuencial_a_aleatorio(file1, file2)

Y el resultado del fichero relleno tendría el siguiente aspecto:

Frutas Gutierrez..............
Antonio Gutierrez.............
607454545
Hortalizas del Sur............
Guillermo Morales.............
625854874
Azucarera Sevillana...........
Rodrigo Mendez................
622525885
Proveedor nº: 4...............
Contacto proveedor nº: 4......
Tf:--4...
Proveedor nº: 5...............
Contacto proveedor nº: 5......
Tf:--5...

….
Proveedor nº: 776.............
Contacto proveedor nº: 776....
Tf:--776.
Huevos La Puebla..............
Araceli Arnedo................
652879137
Proveedor nº: 778.............
Contacto proveedor nº: 778....
Tf:--778.

…
Proveedor nº: 1000............
Contacto proveedor nº: 1000...
Tf:--1000

Paso 8: Desplazándonos directamente a un número de registro

Tenemos que primero calcular la posición en la que empezaría el registro, y a continuación movernos hasta ella y leer una cantidad determinada de datos. Todo sometido a una estricta estructura.

Para realizarlo, usamos el siguiente procedimiento:

def recuperar_registro_porId(file,num_registro):
    with open(file, 'r') as archivo:
        contenido = archivo.read()
        #Elimina los retornos de carro
        contenido_sin_retornos = contenido.replace('\n','')
        lista_continua = list(contenido_sin_retornos)
    longitud_registro=30+30+9
    posicion=longitud_registro*(num_registro-1)
    proveedor=lista_continua[posicion:posicion+30]
    proveedor="".join(proveedor)
    print(proveedor)
    contacto=lista_continua[posicion+30:posicion+60]
    contacto="".join(contacto)
    print(contacto)
    tfno=lista_continua[posicion+60:posicion+69]
    tfno="".join(tfno)
    print(tfno)

Si ejecutamos el método:

registro=777
file="fichero_aleatorio_relleno.txt"
recuperar_registro_porId(file,registro)

Obtenemos:

Huevos La Puebla..............
Araceli Arnedo................
652879137

NOTA:

Este post es parte de la colección “Sistemas de acceso y almacenamiento de datos”. Puedes ver el índice de esta colección aquí.