banner

Blog

May 13, 2023

Un aprendizaje profundo generalizado

Scientific Reports volumen 13, Número de artículo: 9079 (2023) Citar este artículo

716 Accesos

1 Altmetric

Detalles de métricas

El uso de modelos sustitutos basados ​​en redes neuronales convolucionales (CNN) está aumentando significativamente en el análisis de microestructuras y predicciones de propiedades. Una de las carencias de los modelos existentes es su limitación a la hora de alimentar la información material. En este contexto, se desarrolla un método simple para codificar las propiedades del material en la imagen de la microestructura para que el modelo aprenda la información del material además de la relación estructura-propiedad. Estas ideas se demuestran mediante el desarrollo de un modelo CNN que se puede utilizar para materiales compuestos reforzados con fibra con una relación de módulos elásticos de fibra a matriz entre 5 y 250 y fracciones de volumen de fibra entre 25 y 75 %, que se extienden de extremo a extremo. -fin rango práctico. Las curvas de convergencia de aprendizaje, con el error porcentual absoluto medio como métrica de interés, se utilizan para encontrar el número óptimo de muestras de entrenamiento y demostrar el rendimiento del modelo. La generalidad del modelo entrenado se muestra a través de sus predicciones sobre microestructuras completamente invisibles cuyas muestras se extraen del dominio extrapolado de las fracciones de volumen de fibra y contrastes de módulos elásticos. Además, para que las predicciones sean físicamente admisibles, los modelos se entrenan imponiendo los límites de Hashin-Shtrikman, lo que condujo a un rendimiento mejorado del modelo en el dominio extrapolado.

Los modelos de aprendizaje automático (ML), especialmente su subdominio redes neuronales artificiales (ANN), demostraron ser herramientas valiosas en el diseño y análisis de materiales compuestos1,2,3. Primero, estos modelos se desarrollan aprendiendo de los puntos de datos generados por simulaciones o recopilados de experimentos. Posteriormente, durante el despliegue, este modelo se utiliza para realizar inferencias sobre cualquier punto de datos con las mismas características que los utilizados durante el aprendizaje. Generalmente, el proceso de desarrollo del modelo inicial involucra costos computacionales (memoria y tiempo) para generar datos y entrenar el modelo. La ventaja esperada es que, con el modelo desarrollado, se pueden realizar predicciones en tiempos significativamente más cortos. Aquí, la cantidad de puntos necesarios para entrenar un modelo depende de múltiples factores, como la cantidad de conocimiento previo del sistema utilizado en el proceso de entrenamiento4, la complejidad de la relación de entrada-salida y la precisión esperada del modelo. La investigación activa se centra en utilizar la física conocida, como ecuaciones gobernantes o constitutivas, durante el entrenamiento del modelo. En esta dirección, las redes neuronales informadas por la física (PINN)5,6,7 han ganado mucha atención para resolver con precisión las PDE de la física subyacente. Un muestreo de entradas basado en el conocimiento es otra forma de utilizar la física del problema en el entrenamiento del modelo8,9. Además de la infusión de conocimientos previos, el tipo de arquitectura ANN juega un papel esencial en el aprendizaje efectivo y sin esfuerzo. Algunas de las arquitecturas ANN exitosas incluyen; redes neuronales convolucionales (CNN) para el tipo de datos de imagen, redes neuronales recurrentes (RNN) para datos secuenciales o de series temporales y redes adversarias generativas (GAN) para aprender la distribución de los datos dados.

La evaluación de las propiedades de los materiales compuestos no es una tarea trivial debido a las heterogeneidades en varias escalas de longitud y la naturaleza estadística de la distribución y morfología de los constituyentes. Como los métodos experimentales requieren mucho tiempo y son económicamente más costosos, se desarrollan soluciones analíticas para encontrar las propiedades de un material homogéneo hipotético equivalente que responda de manera similar al material compuesto. Estas soluciones se obtienen mediante ciertos supuestos, por lo que solo se aplican a casos más simples con restricciones en la geometría y distribución de los constituyentes. Estas deficiencias se pueden abordar con la homogeneización basada en el análisis de elementos finitos (FEA)10,11, donde se resuelven múltiples problemas de valores límite en un elemento de volumen representativo (RVE) utilizando diferentes casos de carga. Algunas variaciones de este enfoque FEA convencional12,13 se desarrollan para reducir los costos computacionales. La homogeneización basada en el método asintótico variacional (VAM), por ejemplo, proporciona una matriz de material eficaz mediante el análisis de elementos finitos únicos sin ningún procesamiento posterior, en contraste con la resolución de casos múltiples junto con pasos de procesamiento posterior igualmente exigentes en el enfoque convencional. Aún así, el tiempo computacional y los recursos requeridos son lo suficientemente significativos como para ralentizar la búsqueda de mejores materiales compuestos. Por lo tanto, se está llevando a cabo una investigación activa para combinar la micromecánica computacional y los métodos de inteligencia artificial (IA) basados ​​en datos para construir modelos sustitutos6,7,14,15,16,17.

Los modelos CNN se han utilizado ampliamente en la micromecánica15,16,18,19,20,21 ya que la información de la microestructura está disponible, generalmente, ya sea en forma de imagen (para 2D) o en forma voxelada (para 3D). El éxito de la arquitectura CNN sobre redes neuronales artificiales simples se puede atribuir a su capacidad de aprendizaje de características propias y al uso de características de conectividad local utilizando las dos suposiciones básicas siguientes22. Uno, se supone que las características de bajo nivel son locales y no dependen de las características espacialmente lejanas, lo que se implementa al conectar las neuronas aguas abajo con solo las neuronas espacialmente vecinas aguas arriba a través de un núcleo (o filtro) de la operación de convolución. La segunda suposición es que una característica aprendida en una ubicación espacial es útil en la otra ubicación. Por lo tanto, el kernel con los mismos pesos se usa en todas las ubicaciones de la imagen. Generalmente, los modelos CNN se construyen en dos etapas. Primero, las características de los datos se aprenden a través de una serie de operaciones de convolución y agrupación en las muestras de entrada. La segunda etapa contiene un perceptrón multicapa convencional que toma la salida de la primera etapa como una matriz aplanada. Las conexiones densas de la última etapa aumentan drásticamente el número de parámetros que se pueden aprender, lo que genera mayores costos de cómputo y tiempos de entrenamiento más prolongados. Por lo tanto, Mann y Kaidindi20 desarrollaron un modelo CNN en el que la salida de la primera etapa se asigna directamente a las salidas. Además, al final de la primera etapa, se demostró que el uso de la agrupación promediada globalmente en lugar del aplanamiento simple reducía el número de parámetros y el sobreajuste en el modelo18,23. Las arquitecturas innovadoras de la primera etapa han dado lugar a modelos CNN eficientes como AlexNet, VGG y ResNet. Entre estos, el modelo VGG se ha adoptado ampliamente en muchos modelos micromecánicos18,19,24, ya sea directamente mediante transferencia de aprendizaje o utilizando su principio de apilamiento de capas convolucionales con operaciones de agrupación retrasadas. Por ejemplo, Li et al.19 utilizaron el modelo VGG-16 podado para aprender y reconstruir características de microestructuras en las que se eliminan las capas de alto nivel o aquellas que se encuentran lejos de la capa de entrada para reducir el costo computacional. Hemos utilizado el principio de funcionamiento de esta arquitectura simple y estándar porque el objetivo principal del presente trabajo es desarrollar conjuntos de datos que sean conscientes de la información material y evaluar su influencia en el rendimiento del modelo. Aunque los modelos de CNN están libres de ingeniería de características, algunos modelos han demostrado que al proporcionar entradas modificadas en lugar de imágenes simples sin procesar, se puede mejorar la capacidad de aprendizaje del modelo17,20,25. Por ejemplo, Mann y Kalidindi20 utilizaron correlaciones espaciales de dos puntos de la microestructura; Cheng y Wagner17 han desarrollado RVE-net que utiliza condiciones de carga y geometría parametrizada (por campos establecidos por nivel) como entrada. Dado que la preparación de etiquetas requiere un uso intensivo de la computación, se han desarrollado algunos modelos de CNN utilizando información física para aprender etiquetas implícitamente17,26. Li y Chen26 han modelado el comportamiento constitutivo de los materiales hiperelásticos incorporando condiciones de equilibrio en el modelo CNN.

En el caso de los materiales compuestos, es deseable tener un modelo sustituto que pueda usarse en rangos más completos de fracciones de volumen de fibra (\(V_f\)) y propiedades constituyentes. Los modelos existentes están construidos para una fracción de volumen de fibra en particular o una pequeña gama de fracciones de volumen de fibra (menos del 50%) y una combinación particular de materiales de fibra y matriz. En este trabajo, desarrollamos un modelo que se puede utilizar para rangos más amplios de fracciones de volumen de fibra \(V_f \in [25\%, 75\%]\) y contraste de módulo elástico de matriz de fibra (relación) \(E_{cr } \in [5, 250]\) y también se evalúan las capacidades predictivas de los modelos entrenados en el dominio extrapolado de \(V_f \in [10\%, 75\%]\) y \(E_{cr} \ en [5, 500]\). Las imágenes en escala de grises de la microestructura proporcionan las características geométricas como \(V_f\), pero no la información del material. Entonces, si el modelo tiene que trabajar con diferentes sistemas de materiales, debe aprender a detectar las propiedades de los materiales constituyentes. Para este propósito, se desarrolla un método simple y novedoso en el que la información del material se proporciona como tensores de orden superior que se preparan codificando las propiedades del material de cada fase en una imagen en escala de grises de la microestructura. Otra forma alternativa de ingerir las propiedades constituyentes es a través de entradas multimodales o mixtas. En este enfoque, los valores numéricos de las propiedades constituyentes se pueden concatenar en la matriz aplanada después de la operación de convolución, evitando la operación de codificación27. Sin embargo, este enfoque podría requerir más muestras para conocer la ubicación espacial de las propiedades del material, mientras que las muestras preparadas a partir de la codificación directa reciben información sobre la ubicación espacial del constituyente. Además, la admisibilidad física de las predicciones del modelo se evalúa utilizando límites basados ​​en la física. A pesar de los niveles aceptables de métricas de rendimiento, se observa un número significativo de valores atípicos en ciertas regiones del dominio. Estos valores atípicos se eliminan por completo entrenando los modelos con una aplicación estricta de los límites. Para ello, hemos utilizado los límites de Hashin-Shtrikman28,29 en el entrenamiento del modelo.

El documento está estructurado de la siguiente manera: inicialmente, la generación de conjuntos de datos se explica con los detalles de la generación de microestructuras, la codificación de propiedades del material y la preparación de etiquetas. Luego, se construyen los modelos CNN y se estudia su rendimiento en las muestras no vistas del dominio de los conjuntos de datos de entrenamiento y su dominio extrapolado usando gráficos de error de porcentaje absoluto. Al final, los límites basados ​​en la física se utilizan para cuantificar y eliminar las predicciones del modelo físicamente inadmisibles.

El conjunto de datos está constituido por una pila de muestras de RVE en la que cada muestra contiene la imagen binaria del RVE como entrada y sus propiedades elásticas transversales normalizadas como etiquetas objetivo. Aquí, RVE es un elemento de volumen representativo del compuesto unidireccional con fibras distribuidas aleatoriamente de secciones transversales circulares. Sea \({\mathscr {X}}_{bw} \in {\mathbb {R}}^{n_s \times n_w \times n_h \times 1}\) la parte de entrada del conjunto de datos que contiene \(n_s\ ) número de imágenes RVE con \(n_w\) y \(n_h\) píxeles a lo largo de ancho y alto, respectivamente. Junto con \({\mathscr {X}}_{bw}\), se deben proporcionar las propiedades materiales de los constituyentes, que se codificarán en la imagen RVE en sus ubicaciones espaciales respectivas, como se explica en la preparación de la matriz de información material. sección. Al final de este paso de procesamiento previo, obtenemos un tensor de orden superior \({\mathscr {X}} \in {\mathbb {R}}^{n_s \times n_w \times n_h \times n_m}\) que contiene \(n_m\) capas para cada imagen que representan diferentes propiedades de interés. La entrada (\({\mathscr {X}}_{bw}\)), matrices de información de materiales (\({\mathscr {X}}\)) y etiquetas (\({\mathscr {Y}}\) ) del conjunto de datos se muestran esquemáticamente en la Fig. 1.

Esquema de los elementos del conjunto de datos que muestra la imagen binaria RVE (entrada al modelo), matrices de información del material (preparadas al comienzo de la inferencia del modelo) y propiedades elásticas transversales normalizadas con el módulo de matriz respectivo (salida del modelo).

Para desarrollar un modelo sustituto genérico que sea aplicable a aplicaciones prácticas más amplias, se crean conjuntos de datos con una amplia gama de fracciones de volumen de fibra \((V_f \in [25\%, 75\%])\) y propiedades del material constituyente contrastes (\(E_{cr} = E_f/E_m \in [5, 250]\)). Para un \(V_f\) dado, a partir de las observaciones de Adam y Doner30, las propiedades elásticas transversales de los materiales compuestos unidireccionales aumentan rápidamente con un contraste de módulo elástico de fibra-matriz más bajo \(E_{cr}=E_f/E_m\) y luego se estabiliza; este fenómeno se vuelve más pronunciado a mayor \(V_f\). Se encuentra que el módulo de elasticidad transversal se estabiliza en alrededor de \(E_{cr}=250\) para \(V_f=75\%\)30, por lo que el \(E_{cr}\) máximo seleccionado es 250 en este estudio. Para cada RVE, la fracción de volumen de fibra (\(V_f\)) y las propiedades del material (\(E_f\) y \(E_m\)) se extraen aleatoriamente con probabilidad uniforme de su rango respectivo. Si \(E_f\) y \(E_m\) elegidos al azar son tales que \(E_{cr}\) está fuera del rango, se extrae un nuevo par hasta que \(E_{cr}\) esté dentro de su rango seleccionado. rango. El gráfico de dispersión de \(V_f\) y \(E_{cr}\) para 30 000 RVE se muestra en la Fig. 2a. Uno puede notar que las muestras se distribuyen uniformemente con respecto a la fracción de volumen de fibra pero no uniformemente con respecto a \(E_{cr}\). Esto se debe a un rango más amplio de \(E_{f} \in [10 ~\text {GPa}, 500~\text {GPa}]\) en comparación con \(E_{m} \in [1~\text { GPa}, 10~\text {GPa}]\) con una restricción en el rango \(E_{cr}\). Para un \(V_f\) dado, de Adam y Doner30 y la Fig. 2b, la propiedad elástica transversal varía rápidamente en \(E_{cr}\) más bajos y se estabiliza en \(E_{cr}\) más altos. Por lo tanto, asumimos que tener menos muestras en la región de variación de propiedad insignificante tiene un efecto menor en el rendimiento del modelo.

Características del conjunto de datos \({\mathscr {D}}_1\). (a) La distribución de \(V_f\) y \(E_{cr}\) con 30 000 RVE, (b–d) Propiedad elástica transversal normalizada \({\overline{E}}_{22} = E_{22 }/E_m\) variación con \(V_f\) y \(E_{cr}\). Tenga en cuenta que \({\overline{E}}_{22}\) varía rápidamente en \(E_{cr}\) inferior y \(V_f\) superior, como lo indican las burbujas de color rojo en (c) y (d) .

El conjunto de datos, \({\mathscr {D}}_1\), desarrollado en este trabajo contiene 30 000 muestras con entrada \({\mathscr {X}}_{bw} \in {\mathbb {N}}^{ 30 000 \times 256 \times 256 \times 1}\) y las etiquetas \({\mathscr {Y}}\in {\mathbb {R}}^{30 000 \times 3}\), que se dividirán en 2 Relación :1 para el rendimiento de entrenamiento y prueba de los modelos, respectivamente. Aquí, el tamaño de la imagen binaria RVE (es decir, que representa la matriz con 0 y la fibra con 1) se elige como \(256 \times 256\) siguiendo un estudio de convergencia, como se explica en la siguiente sección.

Tenga en cuenta que el conjunto de datos está diseñado como una unión de 120 fragmentos en los que cada fragmento que contiene 250 muestras sigue la misma distribución (de \(V_f\) y \(E_{cr}\)) que el conjunto de datos completo. Esto es para asegurar la distribución idéntica para los conjuntos de datos más pequeños que se utilizarán en los estudios de convergencia para encontrar el tamaño de imagen óptimo y el tamaño de conjunto de entrenamiento óptimo. Los siguientes puntos enumeran los pasos involucrados en la preparación de conjuntos de datos, mientras que el procedimiento detallado se proporciona en la última parte de esta sección.

Para cada RVE,

Dibuja \(V_f\) y \(E_{cr}\) del rango seleccionado;

Generar RVE para la fracción de volumen de fibra respectiva, \(V_f\);

Guarde RVE como una imagen binaria en blanco y negro, que representa matriz con 0 y fibra con 1;

Las matrices de información material se preparan utilizando la ecuación. (4), de imagen binaria durante la predicción;

Las propiedades elásticas transversales se determinan mediante simulaciones basadas en la física y se normalizan con su respectivo módulo de matriz.

Los RVE periódicos de materiales compuestos unidireccionales, con la distribución aleatoria de fibras circulares, se generan utilizando un algoritmo basado en la optimización desarrollado recientemente por los autores31. Aquí, la periodicidad de RVE implica que una fibra que sale de uno o varios bordes debe entrar desde el borde o los bordes opuestos, de modo que RVE sea continuo cuando se repita en el espacio, como se muestra en la Fig. 3a. Dicha periodicidad es necesaria para aplicar condiciones de contorno periódicas durante la homogeneización del RVE para evaluar las propiedades efectivas. Los RVE generados con este algoritmo han demostrado la aleatoriedad en la distribución de fibras y la isotropía transversal como una microestructura real mediante análisis estadístico y micromecánico31. Inicialmente, los centros de sección transversal de fibra \(\varvec{x} = (x, y)\) se colocan aleatoriamente en el dominio RVE \(\Omega\) al tiempo que permiten superposiciones de fibra. Luego, se resuelve un problema de optimización con restricciones para minimizar la magnitud de la superposición de fibra f como se muestra en la ecuación. (1).

Muestre imágenes binarias RVE (a–d), con resolución \(256 \times 256\), en cuatro fracciones de volumen de fibra (\(V_f\)). (a) muestra la periodicidad de los RVE.

La magnitud total de la superposición f y su gradiente se pueden evaluar explícitamente31 como se muestra en la ecuación. (2)

donde \(C_{ij}\) es la magnitud de la i-ésima intrusión de fibra en la j-ésima fibra, \(\varvec{H}\) es la función escalón de Heavside, \(d_{ij}\) es la distancia entre los centros de las fibras i y j, \({\overline{d}}_{ij}\) es la distancia entre los centros de las fibras cuando se tocan externamente entre sí, y N es el número total de fibras en el RVE. Hemos utilizado Julia language32 para resolver el problema de optimización Eq. (1). En una computadora con un procesador Intel Xeon CPU de 2,40 GHz y 64 GB de RAM, se necesitaron 106,8 min para generar 30 000 RVE con una distribución uniforme de \(V_f \in [25\%, 75\%]\). El tiempo computacional puede variar ligeramente debido a la naturaleza estocástica de \(V_f\) y la convergencia de optimización para cada RVE. Cuatro imágenes RVE de muestra, generadas con este enfoque, se muestran con una resolución de \(256 \times 256\) en la Fig. 3.

En esta sección, se desarrolla el procedimiento para crear matrices de información de materiales a partir de una imagen RVE. Deje que la matriz \({\textbf{I}}^{(g)} \in {\mathbb {R}}^{n_w \times n_h}\) represente una imagen en escala de grises de RVE con \(N_{ph}\ ) fases materiales donde se usa un valor de píxel único, \(p_i \in [0, 1 ] \subset {\mathbb {R}}\), para indicar la i-ésima fase \(\Omega _i\) para \(i = 1,2,...,N_{ph}\). Para evitar confusiones con la matriz de fase continua de la microestructura, el término matriz se utiliza para implicar una matriz matemática o, más específicamente, una disposición rectangular de valores de píxeles de imagen.

Procedemos a construir \({\textbf{I}}^{(\lambda )}\), del mismo tamaño que \({\textbf{I}}^{(g)}\) pero con diferentes valores de píxel que representan constante material o propiedad \(\lambda \in [\lambda _{min}, \lambda _{max}]\). Los valores de píxel de \({\textbf{I}}^{(\lambda )}\) se pueden evaluar usando la ecuación. (3). Aquí, los criterios para elegir los límites, \(\lambda _{min}\) y \(\lambda _{max}\), no necesitan basarse en la admisibilidad de la propiedad \(\lambda\) sino en la rango de valores utilizados para construir los conjuntos de datos. Por ejemplo, de la Tabla 1, los límites de módulos elásticos se pueden elegir como \(E_{min}=1\) GPa y \(E_{max}=500\) GPa en lugar de \(E>0\) para crear todos los conjuntos de datos

donde \(\delta (x)\) es la función delta de Dirac con valor 1 para \(x=0\) y 0 en caso contrario. Aunque la Ec. (3) parece complicado, simplemente normaliza la propiedad \(\lambda _i\) de la i-ésima fase con respecto a sus límites a [0, 1].

En el caso especial de un material de dos fases, la ecuación. (3) se puede simplificar a la ecuación. (4). Deje que la fase \(\Omega _1\) y la fase \(\Omega _2\) de \({\textbf{I}}^{(g)}\) se representen con valores de píxel 0 y 1, respectivamente. Luego, la matriz completa, \({\textbf{I}}^{(\lambda )}\), que representa la información \(\lambda _1\) para la fase \(\Omega _1\) y \(\lambda _2\ ) para la fase \(\Omega _2\), se puede obtener usando la siguiente ecuación. (4).

donde \({\textbf{J}} \in {\mathbb {R}}^{n_w \times n_h}\) es una matriz de todos unos. Un esquema de la matriz de información del módulo elástico, evaluado usando Eq. (4), se muestra en la Fig. 4. Vale la pena enfatizar que se debe tener cuidado al guardar las matrices de información del material en formato de imagen. Los valores de píxeles generalmente se almacenan como un byte (8 bits), tomando los valores enteros en [0, 255]. Esto podría generar 256 divisiones discretas en el rango seleccionado de la propiedad del material en lugar de valores continuos, ya que los valores flotantes se redondean a números enteros. Para evitar este problema, optamos por evaluar las matrices de información del material durante la predicción del modelo en la etapa de preprocesamiento del modelo, como se muestra en la Fig. 5, a costa de un ligero aumento en el costo computacional.

Representación esquemática de la preparación de la matriz de materiales de la imagen binaria de material de dos fases (a), \({\textbf{I}}^{(g)}\), que muestra la matriz y el material de fibra, respectivamente, por 0 y 1 (b ) matriz de módulo elástico, \({\textbf{I}}^{(E)}\), preparada con \(E_{matriz}=10\) GPa, \(E_{fibra}=400\) GPa, \ (E_{min}=1\) GPa y \(E_{max}=500\) GPa.

En el presente trabajo, la relación de Poisson de fibra y matriz se elige como la misma, \(\nu _f\) = \(\nu _m\) = 0.25, para reducir la complejidad del análisis. Sin embargo, esta suposición se justifica debido a la débil dependencia del desajuste de la relación de Poisson en las propiedades elásticas transversales33,34. Por lo tanto, las matrices de información de relación de Poisson no se incluyen en la entrada, por lo que cada muestra contiene solo la matriz de información del módulo elástico.

Los valores objetivo de los conjuntos de datos contienen las propiedades elásticas transversales \({\overline{E}}_{22}, {\overline{E}}_{33}\) y \({\overline{G}}_{ 23}\), normalizados con el respectivo módulo matricial. Como el número de RVE (30 000) es relativamente mayor, en este trabajo se utiliza una técnica de homogeneización computacionalmente eficiente basada en el método asintótico variacional (VAM)13. En este enfoque, toda la matriz elástica efectiva \({\overline{D}}\) se puede evaluar usando una sola simulación usando la ecuación. (5a)13,35,36

donde \(\Omega\) es el volumen del dominio RVE; D es la matriz de rigidez del material de la respectiva fase con tamaño \(p \times p\); B es una matriz de deformación-desplazamiento, y \(n_a\) es el número de grados de libertad activos totales (es decir, excluyendo los grados de libertad dependientes debido a las condiciones de contorno periódicas). Se desarrolla una herramienta de homogeneización, escrita en lenguaje Julia32, para evaluar la matriz material efectiva \({\overline{D}}\) que se muestra en la ecuación. (5). Tenga en cuenta que la homogeneización basada en VAM también usa FEA para evaluar los términos en Eq. (5b), haciéndolo capaz de capturar la morfología RVE y asegurando la alta fidelidad de las soluciones. A diferencia de las implementaciones convencionales basadas en FEA10,11, en las que es necesario resolver tantos problemas de valores límite (BVP) y pasos de posprocesamiento como el número de columnas de matriz de material, la homogeneización basada en VAM proporciona \({\overline{D }}\) con una sola solución BVP. Por ejemplo, en una computadora con un procesador Intel Xeon CPU de 2,40 GHz y 64 GB de RAM, la homogeneización bidimensional de 20 RVE mediante el análisis de deformación plana tomó alrededor de 8,3 minutos con VAM y alrededor de 32,5 minutos con el enfoque FEA convencional con la misma malla y cargando. Esta ganancia en términos de tiempo computacional se vuelve más significativa en el caso de la homogeneización tridimensional.

Los RVE generados se modelan con una interfaz perfecta entre la fibra y la matriz. Luego, se genera la malla periódica necesaria para aplicar las condiciones de contorno periódicas (PBC), con elementos de deformación plana, utilizando un software de código abierto, gmsh37. Entonces la ecuación. (5) se emplea para encontrar la matriz material efectiva transversal \({\overline{D}}\). El estudio de convergencia de malla, realizado en cuatro combinaciones de los extremos de \(V_f \in [25\%, 75\%]\) y \(E_{cr} \in [5, 250]\) rangos, ha demostrado que el convergencia de propiedades elásticas transversales en alrededor de 50 a 60 mil elementos. La malla contiene una gran proporción de elementos cuadriláteros y elementos triangulares en menor proporción (\(<2\%\)). A continuación, el tamaño óptimo de RVE (la relación entre la longitud lateral de RVE y el radio de la fibra) se determina como 30 después de otro estudio de convergencia de propiedades elásticas transversales variando el tamaño de RVE.

En esta sección, se diseña y entrena un modelo CNN inspirado en la arquitectura VGG38 utilizando el conjunto de datos \({\mathscr {D}}_1\). El conjunto de datos se divide en una proporción de 2:1 para el entrenamiento y la prueba del modelo, respectivamente. Inicialmente, se realiza un estudio de convergencia sobre los tamaños de píxeles 32, 64, 128, 256, 512 para encontrar el tamaño de imagen RVE óptimo. Luego, los modelos CNN se construyen y entrenan en varios tamaños de conjuntos de entrenamiento para comprender la influencia del tamaño del conjunto de datos en el rendimiento del modelo. Se observa que el rendimiento del modelo converge en un cierto tamaño de conjunto de entrenamiento, más allá del cual la ganancia de rendimiento es insignificante en comparación con el costo computacional. Posteriormente, se evalúa el rendimiento del modelo con respecto a la fracción de volumen de fibra y el contraste de módulos elásticos. La capacidad de predicción del modelo entrenado se estudia en el dominio extrapolado (o no visto). Finalmente, los límites de Hashin-Shtrikman basados ​​en la física se utilizan para cuantificar y eliminar las predicciones que caen fuera de estos límites.

En Ref.38, Simonyan y Zisserman han demostrado una mayor eficiencia con redes más profundas donde se utiliza un tamaño de núcleo pequeño (\(3 \times 3\)) junto con una operación de agrupación retrasada. Las arquitecturas CNN con esta idea, conocidas como VGG CNN, se han utilizado ampliamente en diferentes dominios, incluidas algunas aplicaciones microestructurales18,19,24. La ventaja de usar un tamaño de kernel más pequeño con mayor profundidad (o más capas) sobre uno grande es reducir la cantidad de parámetros de entrenamiento y probablemente mejorar la capacidad de aprendizaje ya que la función de activación no lineal se aplica más veces a través de la profundidad. Además, la operación de agrupación retrasada minimiza la pérdida de información. Por lo tanto, en el presente trabajo, hemos adoptado el tipo VGG de arquitectura CNN para construir el modelo como se muestra en la Fig. 5. En todas las capas de convolución, el tamaño del núcleo y la zancada se fijan en (3, 3) y (1, 1 ), mientras que el número de filtros se muestra en la Fig. 5 para cada operación de convolución. La agrupación media se elige con un tamaño de (2, 2) y un paso de (2, 2), tras un estudio comparativo con la operación de agrupación máxima. Las funciones de activación son elementos esenciales en el modelo de aprendizaje profundo para infundir la no linealidad. Por lo tanto, la activación de la unidad lineal rectificada (relu) se aplica después de cada capa de convolución. Dado que el modelo se construye para predecir valores reales continuos, se usa activación lineal (o no activación) en la capa de salida. Tenga en cuenta que como los conjuntos de datos son demasiado grandes para caber en la memoria, las muestras se suministran en lotes de tamaño \(n_{bs}=64\). Los parámetros del modelo se actualizan después de cada paso de un lote, lo que se conoce como iteración. Una época constituye todas esas iteraciones, donde los datos de entrenamiento completos se envían a través del modelo; para comparar entre los modelos, el número de épocas se fija en 200 en este trabajo. La desviación de las predicciones del modelo (\({\mathscr {Y}}^{(p)}\)) de los valores de verdad básicos (\({\mathscr {Y}}^{(t)}\)) de todas las muestras en un lote se cuantifica usando la función de pérdida del error cuadrático medio (MSE) como se muestra en la ecuación. (6).

donde \(y_{ij}^{(t)}\) y \(y_{ij}^{(p)}\) son propiedades verdaderas y predichas de una muestra. Luego, se utiliza el algoritmo de optimización de Adam39, con una tasa de aprendizaje de 0,001, para actualizar los pesos del modelo de manera que se minimice el MSE. Estos pasos se implementan mediante PyTorch40, una biblioteca de aprendizaje profundo de código abierto con la interfaz de programación Python, para construir y entrenar el modelo CNN. Entrenar un modelo con los hiperparámetros antes mencionados y diez mil muestras tomó alrededor de 80 minutos en una máquina con 32 GB de RAM, procesador de 3,7 GHz y GPU NVIDIA RTX-3050 de 8 GB.

Esquema del modelo CNN. Aquí, \(n_{bs}\) es el tamaño del lote, y \(n_m\) es el número de matrices de información del material (cada una con \(n_w\) filas y \(n_h\) columnas), \({\ mathscr {Y}}^{(t)}\) y \({\mathscr {Y}}^{(p)}\) son valores verdaderos y predichos.

El costo computacional del entrenamiento e inferencia del modelo está directamente relacionado con el tamaño de la imagen. Si bien un tamaño de imagen más bajo conduce a una demanda computacional más barata, la reducción de la resolución de la imagen podría alterar gravemente los detalles de la microestructura. Por lo tanto, en esta sección, determinamos el tamaño de imagen RVE apropiado (por lo tanto, el de las matrices de información de materiales) evaluando su influencia en el rendimiento del modelo. A medida que la resolución de la imagen disminuye, la información microestructural puede perderse debido a la pixelación. Por ejemplo, el RVE de una muestra con una fracción de volumen de fibra de \(54,7\%\) se muestra en la Fig. 6a,b, respectivamente, con una resolución de \(128 \times 128\) y \(512 \times 512\).

Selección óptima del tamaño de imagen RVE. (a) y (b) muestra una imagen RVE de muestra con 128 y 512 píxeles por lado, respectivamente, en la que la longitud del lado RVE es 30 veces el radio de la fibra; (c) Desviación porcentual absoluta de la imagen RVE \(V_f\) con verdadero \(V_f\) a diferentes resoluciones; (d) variación del error porcentual absoluto medio (MAPE) con la resolución de la imagen.

Se puede notar que, con \(128 \times 128\), la matriz entre dos superficies de fibra se reemplaza con material de fibra, y el perfil suave de la sección transversal de la fibra se vuelve grueso. En este estudio, consideramos cinco resoluciones diferentes (\(32 \times 32\), \(64 \times 64\), \(128 \times 128\), \(256 \times 256\) y \(512 \ veces 512\)) para comprender la pérdida de información y su influencia en el entrenamiento del modelo. Primero, la desviación porcentual absoluta (APD) de la fracción de volumen de fibra debido a la pixelación de la imagen se cuantifica utilizando la ecuación. (7) y representado en la Fig. 6c. Aquí, \(V_f^{(image)}\) se evalúa como una fracción de píxeles blancos (que representan fibras) en la imagen RVE. Muestra que, por ejemplo, guardar un RVE con una resolución de \(64 \times 64\) conduciría a una desviación de entre un 2% y un 4% en \(V_f^{(true)}\) si \(V_f^{(true) }\) está cerca del 75%. Se encuentra que esta desviación se reduce al aumentar la resolución de la imagen con menos del 1% de desviación para resoluciones superiores a \(256 \times 256\). Pero, seleccionar una resolución más alta provoca un aumento exponencial de las cargas computacionales, por lo tanto, tiempos de entrenamiento del modelo más altos.

A continuación, los modelos se entrenan con las cinco resoluciones consideradas en tres tamaños de conjuntos de datos diferentes (500, 1500, 2500). Además, en cada combinación de tamaño y resolución del conjunto de datos, se desarrollan diez realizaciones de modelos (con las mismas muestras de entrenamiento e hiperparámetros) para dar cuenta de la naturaleza estadística del proceso de entrenamiento. Luego, el desempeño de estos modelos se evalúa en las muestras de prueba y se cuantifica con el error porcentual absoluto medio (MAPE); En la Fig. 6d, la media de MAPE evaluada en diez realizaciones se representa frente a las resoluciones de imagen con la desviación estándar de MAPE como barras de error. Se puede notar que con el aumento de la resolución y el tamaño del conjunto de entrenamiento, el MAPE y la incertidumbre se han reducido.

Del análisis anterior, hemos seleccionado una resolución de imagen de \(256 \times 256\) para el entrenamiento del modelo, ya que la reducción en la desviación \(V_f\) (ver Fig. 6c) y MAPE (ver Fig. 6d) no es significativa con un aumento en el tamaño de la imagen de 256 a 512, en comparación con el aumento del costo computacional.

Para encontrar el número óptimo de muestras requeridas para un aprendizaje efectivo, se entrenan diferentes modelos con el número de muestras \(n_s \in \{500\), 1000, 1500, 2000, 4000, 6000, 8000, 10,000, 15,000, 20.000\(\}\). Como se explicó en la sección anterior, se garantiza que estos subconjuntos del conjunto de datos tengan el mismo tipo de distribución que el conjunto de datos completo. Además, para comprender la naturaleza estadística del proceso de entrenamiento, se entrenan 10 realizaciones diferentes del mismo modelo en cada uno de los \(n_s\) utilizando el mismo conjunto de muestras e hiperparámetros. Entonces, en total, se entrenan 100 modelos con diez subconjuntos del conjunto de datos y 10 realizaciones en cada uno de los subconjuntos. Luego, estos modelos entrenados se prueban en muestras que no se ven durante el entrenamiento en el que el tamaño del conjunto de prueba se selecciona como la mitad del tamaño del conjunto de entrenamiento. En otras palabras, por ejemplo, los modelos entrenados en 5000 muestras se prueban usando 2500 muestras no vistas. Error porcentual absoluto medio (MAPE), como se define en la ecuación. (8), se utiliza para medir la capacidad predictiva del modelo entrenado.

donde \(n_{test}\) es el número de muestras de prueba, y los superíndices t y p indican valores verdaderos y predichos de y. Aunque MAPE es más simple de interpretar y escalar independientemente, tiene ciertas limitaciones como tender a infinito o indefinido cuando el valor verdadero se aproxima o es igual a cero. Sin embargo, en el presente trabajo, la normalización de las propiedades efectivas con el módulo de matriz respectivo elimina problemas tales como valores verdaderos o objetivo \(y_i^{(t)}\) son siempre mayores o iguales a uno. Además, es importante tener en cuenta que el error porcentual absoluto trata la subestimación y la sobreestimación de manera diferente.

La variación de la media y la desviación estándar de MAPE, evaluada en el conjunto de prueba durante 10 realizaciones, se representa frente al número de ejemplos de entrenamiento en la Fig. 7. Nos referimos a estas curvas como curvas de convergencia de aprendizaje (LCC). En la Fig. 7, se puede observar que MAPE de las tres propiedades transversales normalizadas (\({\overline{E}}_{22}\), \({\overline{E}}_{33}\), \ ({\overline{G}}_{23}\)) ha convergido en aproximadamente un conjunto de entrenamiento de 10 000 muestras. Además, como indican las barras de error, la desviación estándar se ha reducido significativamente con el tamaño del conjunto de entrenamiento. A partir de este análisis de convergencia, hemos seleccionado un tamaño de conjunto de entrenamiento de 10000 como óptimo y procedemos a analizar rigurosamente los modelos entrenados con este tamaño de conjunto de datos.

Curvas de convergencia de aprendizaje de los modelos entrenados en el conjunto de datos \({\mathscr {D}}_1\) que muestran la variación del MAPE de cada propiedad con el tamaño del conjunto de entrenamiento. Las barras de error indican la desviación estándar de MAPE sobre diez realizaciones del modelo que se entrenan con el mismo conjunto de muestras e hiperparámetros.

Las propiedades elásticas transversales (es decir, las propiedades objetivo) dependen de la fracción de volumen de fibra \(V_f\) y el contraste del módulo elástico \(E_{cr}\), como se muestra en la Fig. 2. Es difícil inferir el rendimiento del modelo con respecto a estos parámetros usando MAPE, ya que comprime la información en todo \(V_f\) o todo \(E_{cr}\) en un solo valor, ver Eq. (8). Por lo tanto, para obtener una comprensión clara de la capacidad predictiva del modelo, se estudiará el error porcentual absoluto (APE) de cada predicción. En la Fig. 8, los diagramas de dispersión muestran el APE de las tres predicciones de propiedades para 5000 muestras de prueba con respecto a \(V_f\) y \(E_{cr}\). Se puede notar que, excepto algunos valores atípicos, el error porcentual absoluto se encuentra por debajo del 5%. La función de distribución acumulativa en el lado derecho de la Fig. 8 muestra la fracción de muestras debajo de un APE particular. Por ejemplo, el 86 % de las muestras tienen un error de predicción absoluto inferior al 3 % y un APE inferior al 5 % para el 97 % de las muestras de prueba.

Los diagramas de dispersión muestran el porcentaje de error absoluto (APE) de las predicciones de propiedades objetivo, en 5000 muestras de prueba, con \(V_f\) y \(E_{cr}\). La función de distribución acumulativa del lado derecho muestra la fracción de muestras bajo un APE particular; Por ejemplo, muestra que el APE de la predicción del modelo es inferior al 5 % en el 97 % de las muestras de prueba.

En las secciones anteriores, el modelo sustituto se construye y entrena para predecir en un amplio rango de \(V_f \in [25\%, 75\%]\) y \(E_{cr} = E_f/E_m \ in [5 , 250]\). Además, estos modelos se prueban en muestras no vistas que pertenecen al mismo rango, y el rendimiento se encuentra dentro de los niveles aceptables. Sería interesante ver cómo se comporta el modelo en el dominio extrapolado que no se consideró durante el entrenamiento. En la Fig. 9, dominios extrapolados de conjuntos de datos (\({\mathscr {D}}_2\), \({\mathscr {D}}_3\) y \({\mathscr {D}}_4\)) con respecto al dominio del conjunto de datos principal \({\mathscr {D}}_1\) se muestran esquemáticamente. En estos dominios extrapolados, la variación en la propiedad no es significativa desde su región de conexión del dominio nativo, como se muestra en el esquema central y derecho de la Fig. 9. Por lo tanto, se espera que el modelo prediga con una precisión razonablemente buena como en el dominio nativo. Es importante destacar que dicho ejercicio ayudará a evaluar la generalidad del modelo CNN y su capacidad para predecir propiedades de microestructuras completamente invisibles cuyas características no están presentes en el conjunto de datos de entrenamiento. Para probar el rendimiento del modelo en estos dominios extraterrestres, el tamaño de los conjuntos de datos se selecciona en proporción al tamaño del dominio. Como el rango de \(E_{cr}\) es aproximadamente el mismo para todos los dominios, el número de muestras de prueba se calcula en función del rango de \(V_f\). Para los conjuntos de datos \({\mathscr {D}}_1\) y \({\mathscr {D}}_2\), con un rango de 50% \(V_f\), se utilizan 5000 muestras de prueba, y para las dos restantes conjuntos de datos que tienen un rango de 15% \(V_f\), se utilizan 1500 muestras de prueba. El APE de las predicciones del modelo en estos conjuntos de datos se muestra en la Fig. 10, con respecto a \(V_f\) y \(E_{cr}\), junto con la función de distribución acumulativa de APE. En el caso de \({\mathscr {D}}_3\) y \({\mathscr {D}}_4\), como se muestra en la Fig. 10b,c, APE muestra una tendencia creciente con \(V_f\) decreciente. ). Esto podría deberse a una desviación en la información estructural de RVE con \(V_f\) decreciente, aunque su propiedad objetivo no cambia significativamente. En los tres dominios extrapolados, el APE de las predicciones del modelo para al menos el 85-90 % de las muestras de prueba es inferior al 5 %. Esto sugiere que el modelo entrenado se puede utilizar en el dominio extraterritorial de \(V_f\) y \(E_{cr}\).

Representación esquemática de los tres dominios extrapolados (con conjuntos de datos \({\mathscr {D}}_2\), \({\mathscr {D}}_3\) y \({\mathscr {D}}_4\)) junto con el dominio del conjunto de datos principal \({\mathscr {D}}_1\). Tenga en cuenta que las fluctuaciones en \({\overline{E}}_{22}\) en el \(V_f\) y \(E_{cr}\) más altos no están indicadas.

El error porcentual absoluto (APE) de las predicciones del modelo cuando se prueban en dominios extrapolados \({\mathscr {D}}_2\), \({\mathscr {D}}_3\) y \({\mathscr {D} }_4\). En cada una de las subparcelas (a–c), las dos primeras gráficas de dispersión muestran el APE de las tres propiedades con respecto a la fracción de volumen de fibra \(V_f\) y el contraste de módulos elásticos \(E_{cr}\). La función de distribución acumulativa de APE se muestra en el lado derecho.

En las secciones anteriores, analizamos el rendimiento del modelo en las muestras no vistas del dominio del conjunto de datos entrenado y en los conjuntos de datos de los dominios extrapolados. Se observa que el error porcentual absoluto de las predicciones se encuentra dentro de los límites aceptables. Sin embargo, las predicciones del modelo pueden o no ser físicamente admisibles. En esta sección, la admisibilidad de estas predicciones se evalúa utilizando los límites basados ​​en la física disponibles en la literatura29. Usamos límites de Hashin-Shtrikman (HS) más simples y relativamente más estrictos28, que se pueden evaluar usando la ecuación. (10). En general, los límites inferior y superior de las propiedades efectivas del material compuesto están separados por una gran magnitud, como se muestra en la figura 11a. Se puede notar que los límites se hacen más amplios con el aumento de \(V_f\) y la relación de contraste \(E_{cr}\). Y, las propiedades transversales se encuentran más cerca del límite inferior (como se muestra en la Fig. 11b, c), por lo que existe la posibilidad de que la predicción del modelo se salga del límite inferior.

donde el sufijo f y m se refieren a la fibra y la matriz, K es el módulo de volumen, G es el módulo de corte, E es el módulo de Young, el superfijo \((-)\) y \((+)\) indican los límites superior e inferior .

La variación de los límites de Hashin-Shtrikman del conjunto de datos \({\mathscr {D}}_1\) con la fracción de volumen de fibra \(V_f\) y el contraste de módulos elásticos \(E_{cr}\). (a) muestra el grado de separación entre los límites normalizados con módulos de matriz \(E_m\); (b) y (c) muestra que la propiedad efectiva \(E_{22}\) se encuentra muy cerca del límite inferior.

El número de valores atípicos de los límites inferiores de HS se evalúa en las 10 realizaciones del modelo, que se entrenan en 10 000 muestras del conjunto de datos \({\mathscr {D}}_1\). El número máximo de valores atípicos para cada propiedad con los cuatro conjuntos de datos se enumera en la Tabla 2.

Muestra que una gran cantidad de predicciones del modelo en los conjuntos de datos \({\mathscr {D}}_3\) y \({\mathscr {D}}_4\) están por debajo del límite inferior. Ahora procedemos a hacer cumplir estos límites durante el entrenamiento del modelo de modo que todas las predicciones del modelo se encuentren dentro de los límites. Mientras se entrena un modelo, en general, los límites se pueden aplicar de dos maneras. En el primer enfoque, conocido como aplicación suave, la función de pérdida del modelo se regulariza mediante la suma ponderada de los errores cuadráticos medios de la desviación de las predicciones de los límites. En general, los pesos de estos términos de pérdida adicionales son hiperparámetros que deben ajustarse manualmente. En el segundo enfoque, conocido como cumplimiento estricto, las predicciones del modelo se transforman para que se encuentren dentro de los límites, evitando así hiperparámetros adicionales. En el presente trabajo, elegimos hacer cumplir los límites de una manera estricta. En este enfoque, la arquitectura y el entrenamiento del modelo son similares a los que se muestran en la Fig. 5, excepto algunos cambios al final de la red. La salida de la última capa de la red se asigna a \([-1, 1]\) aplicando la función de activación \(\tanh\). Luego, estos valores se escalan aún más para que se encuentren entre los límites inferior y superior, como se muestra en la ecuación. (11). Vale la pena mencionar que las salidas del modelo no están restringidas a los límites, pero el modelo está entrenado para predecir valores entre los límites.

donde \(y^{*} \in [-1, 1]\) es la salida de la función de activación \(\tanh\) en la última capa, \(y^{(-)}\) y \(y ^{(+)}\) son los límites inferior y superior. Se observa que, a diferencia del entrenamiento sin límites, el entrenamiento con límites es sensible a la tasa de aprendizaje; Los modelos con límites impuestos se entrenan con una tasa de aprendizaje óptima de 0,0005. El MAPE general de las predicciones del modelo, después de 200 épocas, es de aproximadamente 1,72 en el mismo rango que con los modelos entrenados sin límites (consulte la Tabla 1). No obstante, se mejora el error porcentual absoluto de las predicciones en los dominios extrapolados \({\mathscr {D}}_3\) y \({\mathscr {D}}_4\), como se muestra en la Fig. 12, además a eliminar el número de valores atípicos, para todos los dominios. Sugiere que, para las predicciones en el dominio extrapolado, especialmente hacia las fracciones de volumen de fibra más bajas, es importante hacer cumplir los límites para predecir propiedades físicamente válidas.

Error porcentual absoluto (APE) de las predicciones del modelo de aplicación de límites cuando se prueban en los conjuntos de datos \({\mathscr {D}}_1\), \({\mathscr {D}}_2\), \({\mathscr {D}}_3\) y \({\mathscr {D}}_4\). En (a–d), los dos primeros diagramas de dispersión indican el APE de las predicciones del modelo con respecto a la fracción de volumen de fibra \(V_f\) y el contraste de módulos elásticos \(E_{cr}\). En el lado derecho, la función de distribución acumulada de APE muestra la fracción de muestras por debajo del 3 % de APE y del 5 % de APE.

Los modelos CNN se desarrollan para predecir las propiedades elásticas transversales normalizadas de los materiales compuestos reforzados con fibra. Para aumentar la aplicabilidad del modelo, se entrena en una amplia gama de fracciones de volumen de fibra en [25%, 75%] y la relación de contraste del módulo elástico de fibra-matriz en [5, 250]. Se muestra que el modelo proporciona muy buenas predicciones incluso en microestructuras completamente invisibles que se encuentran fuera del rango considerado de fracciones de volumen (en [10%, 25%]) y relaciones de módulo (en [250, 500]). Además, el estudio demostró que la preparación cuidadosa del conjunto de datos y el diseño del entrenamiento son cruciales para lograr un mejor rendimiento del modelo. En resumen,

Se desarrolla un método simple y novedoso para codificar las propiedades materiales de los constituyentes en la imagen en escala de grises de la microestructura para que el modelo aprenda la información material junto con la información geométrica.

Se encuentra que la imagen binaria RVE con una resolución de \(256 \times 256\) tiene una desviación mínima de \(V_f\) (\(<1\%\)) de la verdadera \(V_f\); Además, se encuentra que MAPE ha convergido en esta resolución de imagen RVE.

La naturaleza estocástica del proceso de entrenamiento se cuantifica utilizando la media y la desviación estándar de MAPE, evaluadas en 10 realizaciones del modelo de entrenamiento.

Usando las curvas de convergencia de aprendizaje, el tamaño óptimo del conjunto de entrenamiento se determina como diez mil más allá de lo cual se encuentra que la reducción en MAPE de las predicciones del modelo es insignificante.

En el dominio del conjunto de entrenamiento, al menos el 96 % de las 5000 predicciones de muestra de prueba tienen un error porcentual absoluto (APE) inferior al 5 %.

En el caso de los dominios extrapolados, al menos entre el 85 y el 90 % de las muestras de prueba tienen un APE inferior al 5 %.

Al final, hemos entrenado los modelos con una estricta aplicación de los límites HS basados ​​en la física de modo que las predicciones del modelo siempre sean físicamente admisibles. Además, esto ha mejorado la métrica de rendimiento del modelo APE en los dominios extrapolados \({\mathscr {D}}_3\) y \({\mathscr {D}}_4\).

La idea de codificación de material propuesta se puede emplear para construir modelos sustitutos para materiales anisotrópicos heterogéneos de combinaciones de constituyentes variadas utilizando la pila de matrices de información de materiales relevantes como entrada a la red. Además, como el modelo abarca una amplia gama de fracciones de volumen de fibra y contrastes de módulos elásticos, los modelos entrenados se pueden utilizar en el diseño inverso de las microestructuras que proporcionan las propiedades de interés.

Los conjuntos de datos utilizados y/o analizados durante el estudio actual están disponibles en el siguiente enlace https://github.com/338rajesh/mpi-cnn.

Liu, X., Tian, ​​S., Tao, F. & Yu, W. Una revisión de las redes neuronales artificiales en el modelado constitutivo de materiales compuestos. compos. Parte B Ing. 224, 109152. https://doi.org/10.1016/j.compositesb.2021.109152 (2021).

Artículo Google Académico

Lefik, M., Boso, D. & Schrefler, B. Redes neuronales artificiales en el modelado numérico de materiales compuestos. computar Aplicación de métodos A mí. Ing. 198, 1785–1804. https://doi.org/10.1016/j.cma.2008.12.036 (2009).

Artículo ADS MATH Google Scholar

Chakraborty, D. Predicción de delaminación basada en redes neuronales artificiales en compuestos laminados. Mate. Diseño 26, 1–7. https://doi.org/10.1016/j.matdes.2004.04.008 (2005).

Artículo CAS Google Académico

Karniadakis, GE et al. Aprendizaje automático informado por la física. Nat. Rev. Phys. 3, 422–440. https://doi.org/10.1038/s42254-021-00314-5 (2021).

Artículo Google Académico

Raissi, M., Perdikaris, P. y Karniadakis, G. Redes neuronales informadas por la física: un marco de aprendizaje profundo para resolver problemas directos e inversos que involucran ecuaciones diferenciales parciales no lineales. J. Cómputo. física 378, 686–707. https://doi.org/10.1016/j.jcp.2018.10.045 (2019).

Artículo ADS MathSciNet MATH Google Scholar

Rezaei, S., Harandi, A., Moeineddin, A., Xu, B.-X. & Reese, S. Una formulación mixta para redes neuronales informadas por la física como un solucionador potencial para problemas de ingeniería en dominios heterogéneos: comparación con el método de elementos finitos. https://doi.org/10.48550/ARXIV.2206.13103 (2022).

Henkes, A., Wessels, H. & Mahnken, R. Physics informó redes neuronales para la micromecánica continua. computar Aplicación de métodos mecánico Ing. 393, 114790. https://doi.org/10.1016/j.cma.2022.114790 (2022).

Artículo ADS MathSciNet MATH Google Scholar

Bessa, M. et al. Un marco para el análisis basado en datos de materiales bajo incertidumbre: contrarrestar la maldición de la dimensionalidad. computar Aplicación de métodos mecánico Ing. 320, 633–667. https://doi.org/10.1016/j.cma.2017.03.037 (2017).

Artículo ADS MathSciNet MATH Google Scholar

Morand, L., Link, N., Iraki, T., Dornheim, J. & Helm, D. Exploración eficiente de espacios de propiedades de microestructura a través del aprendizaje activo. Frente. Mater.https://doi.org/10.3389/fmats.2021.824441 (2022).

Artículo Google Académico

Melro, A., Camanho, P. & Pinho, S. Influencia de parámetros geométricos en la respuesta elástica de materiales compuestos unidireccionales. compos. Estructura. 94, 3223–3231. https://doi.org/10.1016/j.compstruct.2012.05.004 (2012).

Artículo Google Académico

Tian, ​​W., Qi, L., Chao, X., Liang, J. & Fu, M. Condición de frontera periódica y su algoritmo de implementación numérica para la evaluación de propiedades mecánicas efectivas de los materiales compuestos con microestructuras complicadas. compos. Parte B Ing. 162, 1–10. https://doi.org/10.1016/j.compositesb.2018.10.053 (2019).

Artículo Google Académico

Higuchi, R., Yokozeki, T., Nagashima, T. y Aoki, T. Evaluación de las propiedades mecánicas de los plásticos reforzados con fibra de carbono no circular mediante micromecánica computacional basada en XFEM. compos. Parte A Apl. ciencia Manufactura 126, 105556. https://doi.org/10.1016/j.compositesa.2019.105556 (2019).

Artículo CAS Google Académico

Yu, W. & Tang, T. Método asintótico variacional para la homogeneización de celdas unitarias de materiales periódicamente heterogéneos. En t. J. Estructura de sólidos. 44, 3738–3755. https://doi.org/10.1016/j.ijsolstr.2006.10.020 (2007).

Artículo MathSciNet MATEMÁTICAS Google Académico

Pathan, MV et al. Predicciones de las propiedades mecánicas de compuestos de fibra unidireccional mediante aprendizaje automático supervisado. ciencia Rep.https://doi.org/10.1038/s41598-019-50144-w (2019).

Artículo PubMed PubMed Central Google Académico

Liu, H. & Zhang, Y. Método de evaluación de la condición de daño del acero estructural basado en imágenes utilizando un algoritmo de aprendizaje profundo. Medida 133, 168–181. https://doi.org/10.1016/j.measurement.2018.09.081 (2019).

Artículo ANUNCIOS Google Académico

Rao, C. & Liu, Y. Red neuronal convolucional tridimensional (3d-cnn) para la homogeneización de materiales heterogéneos. computar Mate. ciencia 184, 109850. https://doi.org/10.1016/j.commatsci.2020.109850 (2020).

Artículo Google Académico

Cheng, L. & Wagner, GJ Una red de elementos de volumen representativa (RVE-net) para acelerar el análisis RVE, la identificación de materiales a microescala y la caracterización de defectos. computar Aplicación de métodos mecánico Ing. 390, 114507. https://doi.org/10.1016/j.cma.2021.114507 (2022).

Artículo ADS MathSciNet MATH Google Scholar

Kondo, R., Yamakawa, S., Masuoka, Y., Tajima, S. & Asahi, R. Reconocimiento de microestructuras utilizando redes neuronales convolucionales para la predicción de conductividad iónica en cerámica. Acta Materialia 141, 29–38. https://doi.org/10.1016/j.actamat.2017.09.004 (2017).

Artículo ADS CAS Google Académico

Li, X. et al. Un enfoque de aprendizaje por transferencia para la reconstrucción de microestructuras y predicciones de estructuras y propiedades. ciencia Rep. https://doi.org/10.1038/s41598-018-31571-7 (2018).

Artículo PubMed PubMed Central Google Académico

Mann, A. & Kalidindi, SR Desarrollo de un modelo CNN robusto para capturar vínculos microestructura-propiedad y cierres de propiedades de construcción que respaldan el diseño de materiales. Frente. Mater.https://doi.org/10.3389/fmats.2022.851085 (2022).

Artículo Google Académico

Ejaz, F. et al. Redes neuronales convolucionales para aproximar conductividades eléctricas y térmicas de compuestos de cu-CNT. ciencia Rep.https://doi.org/10.1038/s41598-022-16867-z (2022).

Artículo PubMed PubMed Central Google Académico

Khan, A., Sohail, A., Zahoora, U. & Qureshi, AS Un estudio de las arquitecturas recientes de redes neuronales convolucionales profundas. Artefacto Intel. Rev. 53, 5455–5516. https://doi.org/10.1007/s10462-020-09825-6 (2020).

Artículo Google Académico

Lin, M., Chen, Q. & Yan, S. Red en red. https://doi.org/10.48550/ARXIV.1312.4400 (2013).

Zhou, K., Sun, H., Enos, R., Zhang, D. y Tang, J. Aprovechamiento del aprendizaje profundo para la predicción basada en la física de la resistencia compuesta con incertidumbres microestructurales. computar Mate. ciencia 197, 110663. https://doi.org/10.1016/j.commatsci.2021.110663 (2021).

Artículo Google Académico

Cecen, A., Dai, H., Yabansu, YC, Kalidindi, SR y Song, L. Vínculos entre estructura y propiedad del material utilizando redes neuronales convolucionales tridimensionales. Acta Materialia 146, 76–84. https://doi.org/10.1016/j.actamat.2017.11.053 (2018).

Artículo ADS CAS Google Académico

Li, L. & Chen, C. Redes neuronales de convolución basadas en equilibrio para el modelado constitutivo de materiales hiperelásticos. J. Mec. física Sólidos 164, 104931. https://doi.org/10.1016/j.jmps.2022.104931 (2022).

Artículo Google Académico

Li, M. et al. Una red neuronal convolucional de aprendizaje profundo y un modelo de fusión híbrida de perceptrón multicapa para predecir las propiedades mecánicas de la fibra de carbono. Mate. Diseño 227, 111760. https://doi.org/10.1016/j.matdes.2023.111760 (2023).

Artículo CAS Google Académico

Hashin, Z. Sobre el comportamiento elástico de materiales reforzados con fibra de geometría de fase transversal arbitraria. J. Mec. física Sólidos 13, 119–134. https://doi.org/10.1016/0022-5096(65)90015-3 (1965).

Artículo ANUNCIOS Google Académico

Qu, J. & Cherkaoui, M. Fundamentos de Micromecánica de Sólidos (Wiley, 2006).

Libro Google Académico

Adams, DF & Doner, DR Carga normal transversal de un compuesto unidireccional. J. Compos. Mate. 1, 152–164. https://doi.org/10.1177/002199836700100205 (1967).

Artículo ANUNCIOS Google Académico

Nakka, R., Harursampath, D., Pathan, M. & Ponnusami, SA Un enfoque computacionalmente eficiente para generar RVE de varias formas de inclusión/fibra. compos. Estructura. 291, 115560. https://doi.org/10.1016/j.compstruct.2022.115560 (2022).

Artículo Google Académico

Jung, J., Yoon, JI, Park, HK, Kim, JY y Kim, HS Un enfoque de aprendizaje automático eficiente para establecer vínculos entre estructura y propiedad. computar Mate. ciencia 156, 17–25. https://doi.org/10.1016/j.commatsci.2018.09.034 (2019).

Artículo Google Académico

Gibson, RF Principios de la mecánica de materiales compuestos (CRC Press, 2016).

Libro Google Académico

Whitney, JM & Riley, MB Propiedades elásticas de materiales compuestos reforzados con fibra. AIAA J. 4, 1537–1542. https://doi.org/10.2514/3.3732 (1966).

Artículo ADS CAS Google Académico

Tang, T. & Yu, W. Modelado de micromecánica asintótica variacional de materiales piezoeléctricos heterogéneos. mecánico Mate. 40, 812–824. https://doi.org/10.1016/j.mechmat.2008.04.007 (2008).

Artículo Google Académico

Pitchai, P., Berger, H. y Guruprasad, P. Investigando la influencia de la interfaz en un compuesto trifásico utilizando la técnica de homogeneización basada en el método asintótico variacional. compos. Estructura. 233, 111562. https://doi.org/10.1016/j.compstruct.2019.111562 (2020).

Artículo Google Académico

Geuzaine, C. y Remacle, J.-F. Gmsh: un generador de mallas de elementos finitos en 3D con instalaciones integradas de procesamiento previo y posterior. En t. J. Número. Métodos Ing. 79, 1309–1331. https://doi.org/10.1002/nme.2579 (2009).

Artículo MathSciNet MATEMÁTICAS Google Académico

Simonyan, K. & Zisserman, A. Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala. https://doi.org/10.48550/ARXIV.1409.1556 (2014).

Kingma, DP & Ba, J. Adam: Un método para la optimización estocástica. https://doi.org/10.48550/ARXIV.1412.6980 (2014).

Paszke, A. et al. Pytorch: una biblioteca de aprendizaje profundo de estilo imperativo y alto rendimiento. Adv. Informe neuronal. Proceso. sist. 32, 8026–8037 (2019).

Google Académico

Descargar referencias

Laboratorio NMCAD, Departamento de Ingeniería Aeroespacial, Instituto Indio de Ciencias, Bengaluru, Karnataka, India

Rajesh Nakka y Dineshkumar Harursampath

Centro de Investigación Aeronáutica y Aeroespacial, Departamento de Ingeniería, Ciudad, Universidad de Londres, Northampton Square, Londres, Reino Unido

Sathiskumar A Ponnusami

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

RN planeó y ejecutó la investigación y escribió el borrador original; RN y SAP concibieron y planificaron la investigación; RN supervisado por SAP y DH; SAP, DH y RN revisaron, revisaron y editaron el manuscrito.

Correspondencia a Sathiskumar A Ponnusami.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Nakka, R., Harursampath, D. y Ponnusami, SA Un modelo sustituto generalizado basado en el aprendizaje profundo para la homogeneización utilizando la codificación de propiedades materiales y límites basados ​​en la física. Informe científico 13, 9079 (2023). https://doi.org/10.1038/s41598-023-34823-3

Descargar cita

Recibido: 11 noviembre 2022

Aceptado: 09 mayo 2023

Publicado: 05 junio 2023

DOI: https://doi.org/10.1038/s41598-023-34823-3

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

COMPARTIR