Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
¿Cómo funciona el backprop con RL?
La virtud del backprop es que actualiza CADA parámetro individual en proporción a cuánto afecta la pérdida. Esto solo es posible si sabes cómo cambiar cada parámetro afecta la función de pérdida.
Pero, por supuesto, con RL esto no es el caso: el entorno (y la recompensa que produce) es un sistema completamente separado. No tienes una función continua y diferenciable que te diga cuánto afecta cada parámetro a la probabilidad de caer por un acantilado.
¡Las soluciones son bastante ingeniosas! Aquí hay algunas formas de encontrar un proxy diferenciable para la recompensa:
Métodos de gradiente de política: No puedes diferenciar la recompensa con respecto a la red. Pero puedes diferenciar las probabilidades de diferentes acciones/tokens sugeridos por la red. Así que simplemente haz que la pérdida = la (suma de logaritmos negativos) de las probabilidades PESADAS por la recompensa. La pérdida es mayor cuando la recompensa es menor, por lo que el modelo aprende a emitir tokens que conducen a una mayor recompensa con mayor probabilidad.
Q-learning: Nuevamente, la recompensa no es diferenciable con respecto a la red. Pero, ¿sabes qué sí lo es? La predicción de la recompensa de la red. Y puedes actualizarla en función de cuán errónea fue esa predicción. Ahora que puedes predecir qué acciones llevarán a qué recompensa, tu política puede simplemente ser tomar las acciones de mayor recompensa esperada.

186
Notas del Capítulo 1 de The Vital Question por el futuro invitado Nick Lane.
En la introducción, enumera las preguntas motivadoras:
¿Por qué las bacterias son tan relativamente simples a pesar de haber estado presentes durante 4 mil millones de años? ¿Por qué hay tanta estructura compartida entre todas las células eucariotas a pesar de la enorme variedad morfológica entre animales, plantas, hongos y protistas? ¿Por qué el evento de endosimbiosis que llevó a los eucariotas ocurrió solo una vez, y de la manera particular en que lo hizo? ¿Y por qué toda la vida se alimenta de gradientes de protones?
Nick dice que todas estas preguntas están conectadas.
Capítulo 1:
Lane dice que hay 2 filosofías diferentes sobre qué limita la exploración evolutiva: los nichos disponibles por el medio ambiente, O la estructura interna necesaria para explotar esos nichos.
La visión tradicional es que el medio ambiente restringe la exploración, mientras que la estructura es flexible y puede acomodarse una vez que el entorno adecuado está en su lugar. Nick Lane piensa que es lo contrario.
Ha habido 2 grandes eventos de oxidación: el primero (hace 2.4 mil millones de años) allanó el camino para las células eucariotas. El segundo (hace 600 millones de años) llevó a la explosión cámbrica, resultando en toda la variedad de animales, plantas y otras formas de vida compleja que vemos. Así que parece que el medio ambiente es central. Una vez que tienes un montón de oxígeno en el aire y en los océanos, puedes empezar a crear todo tipo de cosas geniales.
Pero espera. Esto es lo que esperarías ver si el medio ambiente fuera la clave: Con esta clave que desbloquea la respiración aeróbica, diferentes marcas de bacterias evolucionan independientemente hacia una mayor complejidad para llenar los nuevos nichos abiertos (una domina la osmotrofia y se ramifica en hongos, otra en fotosíntesis, otra en fagocitosis, etc.). Sin embargo, no ves esto.
En cambio, ves que toda la vida compleja emerge de un único ancestro eucariota común (hace 2.2 mil millones de años). No hay evolución convergente independiente hacia este tipo de complejidad (las bacterias han tenido 4 mil millones de años para evolucionar este tipo de complejidad, y han permanecido notablemente similares durante todo ese tiempo).
De hecho, una vez que obtienes este desbloqueo estructural clave, los organismos eucariotas se proliferan ampliamente, llenando nichos que van desde ballenas azules de 100 pies de largo hasta picoplancton de 0.8 metros de largo.
Además:
- La cantidad de estructura compartida entre todas las células eucariotas es notable. Tienen casi todos los mismos orgánulos y componentes. Nick escribe:
"La mayoría de nosotros no podríamos distinguir entre una célula vegetal, una célula renal y un protista del estanque local bajo el microscopio electrónico."
- No hay proto-eucariotas intermedios, que tengan algunas, pero no todas, de las funcionalidades disponibles para las células eucariotas. Esto es sorprendente dado cómo funciona la evolución. Tenemos un extenso registro de las mejoras incrementales entre amebas fotoreceptoras y ojos de mamíferos. ¿Por qué no tenemos células proto-eucariotas que se reproducen a través de meiosis pero no tienen núcleos compartimentados, o tienen mitocondrias pero no citoesqueleto?
Nick argumenta que el hecho de que no exista tal subconjunto de rasgos eucariotas sugiere que no es estructuralmente posible sobrevivir con solo una fracción del equipo eucariota: necesitas todo el paquete de una vez.
Obviamente, esto planteó la pregunta de cómo se evolucionó todo el paquete a la vez. Lo cual creo que abordará en capítulos futuros.
Algunas preguntas para Nick:
- Si su opinión es que la estructura fue el principal cuello de botella, y hemos tenido eucariotas durante 2.2 mil millones de años, ¿por qué no tuvimos todos estos animales y cosas durante 2 mil millones de años? ¿Por qué solo surgieron hace 600 millones de años (es decir, la explosión cámbrica)?
- Nick argumenta que las células eucariotas son un desbloqueo mucho más significativo que la multicelularidad. La multicelularidad evolucionó independientemente docenas de veces, pero solo tenemos evidencia de un evento como la aparición de la primera célula eucariota. Si la multicelularidad evolucionó independientemente tantas veces (entre hongos, mohos mucilaginosos, algas, etc.), ¿vemos diferencias interesantes basadas en las situaciones en las que evolucionaron? ¿Regulan la diferenciación de células, la organización del cuerpo de manera diferente y la comunicación entre tejidos de manera diferente? TODO buscar más tarde.
Un pensamiento tangencial. Todo este debate sobre si la estructura o el medio ambiente importa más parece análogo a la discusión en ML sobre si la arquitectura o los datos importan más. Y allí parece que los datos son bastante cruciales, pero para que el meta-aprendizaje y la generalidad comiencen, la arquitectura tiene que hacer posible que la información fluya de la manera correcta. Por ejemplo, el aprendizaje en contexto es una especie de meta-aprendizaje que surge solo una vez que el modelo tiene la capacidad de atender a cientos de tokens anteriores, lo cual se volvió manejable con los transformadores.


Dwarkesh Patel18 sept, 03:57
Sería divertido hacer un club de lectura para los libros/artículos que estoy revisando para prepararme para entrevistas (o simplemente por interés en leer, sin importar).
¿La mejor manera de organizarlo? ¿Twitter Live? ¿Discord/Slack? ¿O simplemente tuitear pensamientos y que la gente discuta en los comentarios? ¿Algo más?
459
Sería divertido hacer un club de lectura para los libros/artículos que estoy revisando para prepararme para entrevistas (o simplemente por interés en leer, sin importar).
¿La mejor manera de organizarlo? ¿Twitter Live? ¿Discord/Slack? ¿O simplemente tuitear pensamientos y que la gente discuta en los comentarios? ¿Algo más?
67
Parte superior
Clasificación
Favoritos