Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
¿Cómo funciona la retroprop con RL?
La virtud de backprop es que actualiza CADA parámetro individual en proporción a la cantidad de movimiento que afecta la pérdida. Esto solo es posible si sabe cómo afecta el cambio de cada parámetro a la función de pérdida.
Pero, por supuesto, con RL este no es el caso: el entorno (y la recompensa que produce) es un sistema completamente separado. No tiene una función diferenciable continua que le diga cuánto movimiento afecta cada parámetro a la probabilidad de caerse por un acantilado.
¡Las soluciones son bastante inteligentes! Aquí hay algunas formas de crear un proxy diferenciable para la recompensa:
Métodos de gradiente de directiva: no se puede diferenciar la recompensa con respecto a la red. Pero puede diferenciar las probabilidades de diferentes acciones/tokens sugeridos por la red. Así que simplemente haz que la pérdida = la (suma de logaritmos negativos) probabilidades PONDERADAS por la recompensa. La pérdida es mayor cuando la recompensa es menor, por lo que el modelo aprende a generar tokens que conducen a una mayor recompensa con mayor probabilidad.
Q-learning: Una vez más, la recompensa no es diferenciable con respecto a la red. ¿Pero sabes lo que es? La predicción de la recompensa de la red. Y puede actualizarlo en función de qué tan equivocada fue esa predicción. Ahora que puede predecir qué acciones conducirán a qué recompensa, su política puede ser simplemente tomar las acciones de recompensa más altas esperadas.

133
Notas del Capítulo 1 de The Vital Question por el futuro invitado Nick Lane.
En la introducción, enumera las preguntas motivadoras:
¿Por qué las bacterias son tan relativamente simples a pesar de existir durante 4 mil millones de años? ¿Por qué hay tanta estructura compartida entre todas las células eucariotas a pesar de la enorme variedad morfológica entre animales, plantas, hongos y protistas? ¿Por qué el evento de endosimbiosis que condujo a los eucariotas ocurrió solo una vez, y de la manera particular en que lo hizo? ¿Y por qué toda la vida está alimentada por gradientes de protones?
Nick dice que todas estas preguntas están conectadas.
Capítulo 1:
Lane dice que hay 2 filosofías diferentes sobre lo que obstaculiza la exploración evolutiva: los nichos puestos a disposición por el medio ambiente, O la estructura interna necesaria para explotar esos nichos.
La visión de los libros de texto es que el entorno restringe la exploración, mientras que la estructura es flexible y puede adaptarse una vez que se establece el entorno adecuado. Nick Lane piensa que es todo lo contrario.
Ha habido 2 grandes eventos de oxidación: el primero (hace 2.4 mil millones de años) allanó el camino para las células eucariotas. El segundo (hace 600 millones de años) condujo a la explosión cámbrica, lo que resultó en toda la variedad de animales y plantas y otras formas de vida complejas que vemos. Así que parece que el medio ambiente es central. Una vez que obtienes un montón de oxígeno en el aire y en los océanos, puedes comenzar a hacer todo tipo de mierda genial.
Pero espera. Esto es lo que esperaría ver si el medio ambiente fuera la restricción clave: Con este desbloqueo clave de la respiración aeróbica, diferentes marcas de bacterias evolucionan de forma independiente hacia una mayor complejidad para llenar los nuevos nichos abiertos (uno domina la osmotrofia y se ramifica en hongos, otro en fotosíntesis, otro en fagocitosis, etc.). Sin embargo, no ves esto.
En cambio, se ve que toda la vida compleja emerge de un solo ancestro eucariota común (hace 2.200 millones de años). No existe una evolución convergente independiente hacia este tipo de complejidad (las bacterias han tenido 4 mil millones de años para desarrollar este tipo de complejidad y se han mantenido notablemente similares durante todo el tiempo).
De hecho, una vez que obtiene este desbloqueo estructural clave, los organismos eucariotas proliferan ampliamente, llenando nichos que van desde ballenas azules de 100 pies de largo hasta picoplancton de 0,8 metros de largo.
Además:
- La cantidad de estructura compartida entre todas las células eucariotas es notable. Tienen casi todos los mismos orgánulos y componentes. Nick escribe:
"La mayoría de nosotros no podíamos distinguir entre una célula vegetal, una célula renal y un protista del estanque local en el microscopio electrónico".
- No hay protoeucariotas intermedios, que tienen alguna, pero no toda, la funcionalidad disponible para las células eucariotas. Esto es una locura dado cómo funciona la evolución. Tenemos un extenso registro de las mejoras incrementales entre las amebas fotorreceptoras y los ojos de los mamíferos. ¿Por qué no tenemos células protoeucariotas que se reproducen a través de la meiosis pero no tienen núcleos compartimentados, o tienen mitocondrias pero no citoesqueleto?
Nick argumenta que el hecho de que no exista tal subconjunto de rasgos eucariotas sugiere que no es estructuralmente posible sobrevivir con solo una fracción del equipo eucariota: necesita todo el paquete de una vez.
Obviamente, esto planteó la cuestión de cómo evolucionó todo el paquete a la vez. Lo que creo que abordará en capítulos futuros.
Algunas preguntas para Nick:
- Si su opinión es que la estructura fue el principal cuello de botella, y hemos tenido eucariotas durante 2.2 mil millones de años, entonces ¿por qué no tuvimos todos estos animales y mierda durante 2 mil millones de años? ¿Por qué surgieron hace solo 600 millones de años (también conocida como la explosión cámbrica)?
- Nick argumenta que las células eucariotas son un desbloqueo mucho más significativo que la multicelularidad. La multicelularidad evolucionó de forma independiente docenas de veces, pero solo tenemos evidencia de un evento como la aparición de la primera célula eucariota. Si la multicelularidad evolucionó de forma independiente tantas veces (entre hongos, mohos de limo, algas, etc., etc.), ¿vemos diferencias interesantes en función de las situaciones en las que evolucionaron? ¿Regulan la diferenciación de las células, la organización del cuerpo de manera diferente y la comunicación entre los tejidos de manera diferente? TODO búscalo más tarde.
Un pensamiento tangencial. Todo este debate sobre si la estructura o el entorno importan más parece análogo a la discusión en ML sobre si la arquitectura o los datos importan más. Y ahí parece que los datos son bastante cruciales, pero para que el metaaprendizaje y la generalidad comiencen, la arquitectura tiene que hacer posible que la información fluya de la manera correcta. Por ejemplo, en contexto, el aprendizaje es un tipo de metaaprendizaje que surge solo una vez que el modelo tiene la capacidad de atender a cientos de tokens anteriores, que se volvieron manejables con transformadores.


Dwarkesh Patel18 sept, 03:57
Sería divertido hacer un club de lectura para libros/trabajos que estoy revisando para prepararme para entrevistas (o simplemente interesado en leer de todos modos).
¿La mejor manera de organizarse? ¿Twitter en vivo? ¿Discord/Slack? ¿O simplemente tuitear pensamientos y hacer que la gente discuta en los comentarios? ¿Algo más?
456
Sería divertido hacer un club de lectura para libros/trabajos que estoy revisando para prepararme para entrevistas (o simplemente interesado en leer de todos modos).
¿La mejor manera de organizarse? ¿Twitter en vivo? ¿Discord/Slack? ¿O simplemente tuitear pensamientos y hacer que la gente discuta en los comentarios? ¿Algo más?
63
Populares
Ranking
Favoritas