Carlos J. Gil Bellosta

Por fecha

Fri, 26 Apr 2024 00:00:00 +0000

Por tema

Fri, 26 Apr 2024 00:00:00 +0000

Temas con más de 50 entradas

anuncio (122) · artículos (61) · causalidad (51) · charlas (52) · ciencia de datos (149) · consultoría (109) · datos abiertos (63) · economía (67) · encuestas (51) · estadística (562) · estadística bayesiana (85) · estadística pública (65) · finanzas (59) · gráficos (147) · ine (74) · libros (61) · mala ciencia (53) · números (197) · paquetes (117) · probabilidad (136) · programación (88) · python (51) · r (679)

Temas con más de 10 entradas (y menos de 50)

anumerismo (28) · apis (13) · big data (22) · bolsa (12) · ciencia (36) · cis (20) · clústering (17) · coronavirus (30) · correlación (24) · cursos (44) · datos públicos (38) · demografía (17) · distribuciones (21) · econometría (16) · educación (13) · elecciones (16) · electricidad (20) · encuestas electorales (14) · epa (24) · epidemiología (20) · error (23) · españa (24) · excel (19) · fundamentos de probabilidad (11) · física (13) · ggplot2 (13) · glm (25) · google (14) · graficaca (32) · grafos (11) · grandes datos (23) · historia (28) · intervalo de confianza (14) · jornadas (26) · madrid (33) · mapas (47) · matemáticas (19) · media (30) · mercados financieros (12) · microdatoses (18) · modelos (34) · modelos mixtos (14) · momo (14) · mortalidad (35) · muestreo (14) · nlp (44) · optimización (12) · outliers (12) · p-valores (17) · paradoja de simpson (13) · paradojas (12) · paralelización (12) · periodismo de datos (32) · poisson (28) · política (29) · predicción (39) · prensa (28) · priori (22) · proyecciones (13) · random forests (13) · redes sociales (20) · regresión (20) · regresión lineal (13) · regresión logística (20) · riesgo (24) · rpython (11) · sas (43) · scorings (11) · series temporales (22) · sesgo (19) · sicología (13) · sql (19) · stan (44) · supervivencia (13) · teoría de la decisión (23) · trucos (26) · varianza (43) · vídeos (14) · youtube (20)

Temas con más de una entrada (y menos de 10)

abc (5) · accidentes (4) · agregador (2) · ai (6) · airbnb (4) · airef (2) · aleatoriedad (2) · algoritmos (7) · alquiler (2) · amazon (3) · anaconda (2) · andalucía (2) · animaciones (4) · anomalías (2) · anonimidad (8) · análisis factorial (2) · apidays (3) · aprendizaje automático (5) · aproximaciones (3) · apuestas (4) · argentina (2) · arieli (2) · aristóteles (2) · arqueología (2) · artesanía estadística (3) · atribución (3) · auc (4) · aumann (2) · autopistas (2) · ayuntamiento (5) · azar (4) · backups (6) · banca (6) · banzhaf (4) · barómetros (2) · bayes (6) · bayesianismo (4) · bde (2) · be-momo (3) · beta (7) · bibliotecas (2) · bicimad (3) · bigmemory (2) · binomial (4) · bioestadística (4) · bitcoin (3) · blogs (2) · boe (5) · bootstrap (6) · boxplot (2) · brecha (2) · breiman (10) · brier (3) · bug (2) · bugs (2) · bulos (2) · bélgica (2) · cairo (4) · cajas negras (3) · calibración (2) · calor (2) · cambio climático (8) · caret (2) · cartociudad (6) · cartodb (3) · cartogramas (5) · casillas (2) · catastro (3) · cauchy (3) · causalimpact (5) · cca (4) · cdo (2) · censo (7) · ceros (2) · chatgpt (2) · chi cuadrado (3) · churn (3) · circiter (3) · civio (2) · clasificación (5) · cleveland (3) · cluster (3) · co2 (2) · cocina (2) · coeficientes (5) · colores (2) · comparación de modelos (2) · competición (4) · componentes principales (4) · computación (3) · comunidad (2) · condicional (2) · consumo (2) · contaminación (7) · contrafactual (3) · corpus (2) · costa rica (2) · coursera (4) · covarianza (3) · covid (4) · cran (4) · criptografía (4) · criptomonedas (2) · csic (3) · csv (2) · ctree (4) · cuantil (3) · cuantiles (3) · cuasiconvexidad (2) · cultura (2) · cumpleaños (2) · curtosis (2) · data.table (8) · databeers (5) · datatón (7) · datos (3) · david mackay (2) · dbscan (2) · deep learning (8) · defunciones (5) · democracia directa (4) · densidad (2) · derecho (4) · desempleo (9) · desigualdad (10) · dgt (2) · dhondt (3) · diapositivas (4) · dinamarca (2) · discontinuidad (4) · discriminación (4) · distancia (7) · distribución hipergeométrica (2) · distribución normal (2) · divulgación (2) · domingo (2) · domótica (2) · dotplots (4) · dplyr (7) · drae (2) · ec2 (2) · economía conductual (2) · eda (4) · ees (4) · efectos heterogéneos (3) · eficiencia (2) · efron (3) · ejes (4) · elpaís (4) · em (2) · embeddings (6) · empleo (3) · endesa (2) · enecovid19 (3) · energía (10) · energía nuclear (2) · enlaces (3) · entrevista (6) · entropía (3) · epistemología (2) · escepticismo (9) · esl (3) · especificidad (8) · estadística descriptiva (2) · estadística robusta (6) · estadística viejuna (3) · estereotipos (2) · estilo (2) · estimación (7) · euromomo (2) · eurostat (2) · evangelios (2) · evidencia (3) · experimento (2) · explicación (4) · extrapolación (2) · extremistán (3) · factorización (7) · facturas (2) · falacia ecológica (3) · falacias (8) · feather (3) · feller (5) · filosofía (3) · filosofía de la ciencia (4) · fiscal (4) · fisher (8) · forking paths (2) · formación (8) · fotografía (3) · fractales (2) · frases (6) · fraude (3) · frecuencias naturales (3) · frecuentismo (4) · future (2) · futuros (5) · fútbol (3) · galton (2) · gam (5) · gartner (2) · gbm (6) · gdpr (2) · gelman (8) · generalización (3) · geodesia (2) · geolocalización (4) · ggmap (6) · gigerenzer (6) · git (2) · github (3) · glmnet (2) · glms (2) · goodhart (3) · google ads (2) · gosset (2) · gowex (2) · gradiente (3) · grid (2) · gripe (6) · guadalajara (3) · hackatón (2) · hacking (2) · hadoop (3) · hardware (10) · harrell (3) · hayek (2) · hexágonos (2) · hipotecas (2) · histograma (3) · histogramas (2) · home server (2) · homeopatía (6) · html (2) · httr (3) · huelgas (2) · huracán (2) · hypermind (3) · i+d+i (3) · ia (2) · ibex35 (4) · ibm (5) · ideología (3) · igraph (4) · impuestos (10) · imputación (2) · incertidumbre (10) · inferencia (4) · inflación (10) · información (7) · informática (2) · infradispersión (6) · inmigración (3) · interacciones (4) · interactividad (2) · internet (10) · interpolación (2) · intervalo de predicción (2) · inversiones (3) · iot (2) · ipc (2) · irpf (2) · isciii (10) · iva (2) · jaynes (5) · json (2) · json-stat (3) · julia (4) · jupyter (2) · justicia (5) · jython (2) · k-medias (4) · k-vecinos (3) · kaggle (5) · kahneman (2) · kalman (2) · keynes (2) · kivy (2) · kmeans (2) · knime (2) · kolmogorov (4) · kriging (2) · kschool (6) · laffer (3) · lago (2) · laplace (3) · lasso (2) · lda (3) · le verrier (2) · leaflet (2) · lematizador (4) · lenguaje (3) · ley (2) · ley de benford (8) · libor (2) · licencias (2) · lime (3) · lingüística (4) · linux (7) · llms (8) · lm (5) · lme4 (10) · lmer (3) · logaritmo (7) · loglineal (2) · lognormal (3) · lotería (5) · lucas (3) · ludismo (4) · luz frías (2) · lógica (4) · mapreduce (3) · maptools (2) · markov (7) · martingala (3) · matlab (3) · matrices (6) · mcmc (8) · medialab prado (8) · mediana (7) · meehl (4) · melilla (2) · melt (2) · memoria (5) · mercado eléctrico (7) · mercados de predicciones (3) · meteorología (2) · metodología (5) · mezclas (8) · mgcv (3) · microdatos (10) · micromuertes (4) · missing values (2) · ml (2) · modelización (5) · modelo lineal (4) · modelos generativos (5) · modelos gráficos (5) · modelos jerárquicos (3) · momentos (3) · momocalor (4) · mondrian (4) · monty hall (4) · mooc (4) · movilidad (2) · muestras pequeñas (5) · multidimensionalidad (8) · multinomial (2) · márketing (7) · método delta (4) · mínimos cuadrados (4) · nadaesgratis (2) · neutralidad (3) · ngramas (2) · nls (3) · nmf (9) · normalistán (2) · noticias (6) · numpyro (4) · odds (4) · odds ratio (2) · odes (2) · onu (2) · optim (3) · order (3) · ortega (2) · ostagram (2) · p-hacking (2) · pamplona (3) · paradoja de lord (2) · parallel (3) · paro (5) · parrondo (2) · party (7) · paulos (2) · pca (7) · pearl (3) · peces (2) · pensiones (2) · pequeños múltiplos (3) · percepción (2) · percepción del riesgo (9) · periodismo (4) · permutaciones (2) · pib (7) · pisa (6) · plagio (4) · platón (2) · plyr (6) · población (8) · pobreza (6) · polinomios (4) · posteriori (8) · potencia (2) · precios (3) · precisión (2) · primeros principios (2) · privacidad (4) · probabilidades subjetivas (2) · problemas (4) · procesos puntuales (4) · productividad (3) · programación funcional (5) · prop.test (3) · prophet (2) · provincias (4) · proyectos (3) · prueba de hipótesis (10) · psoe (2) · publicidad (3) · pxR (2) · pxr (2) · pyro (2) · quetelet (6) · quijote (2) · r cuadrado (2) · r-es (2) · rae (3) · ram (2) · ranger (2) · rankings (2) · rapidminer (5) · rawls (2) · recmap (2) · recomendaciones (6) · red asia (2) · redes bayesianas (8) · redes neuronales (9) · registro civil (3) · regresión de poisson (2) · regresión ridge (2) · regulación (2) · regularización (2) · reificación (3) · remuestreo (5) · renovables (4) · renta (6) · renta básica (2) · replicabilidad (2) · reproducibilidad (6) · reshape2 (3) · reutilización (3) · revoscaler (2) · rmarkdown (5) · rmse (4) · rnn (2) · roc (5) · rolle (3) · ropensci (2) · ropenspain (6) · roseto (2) · rosling (2) · rpart (2) · rstudio (4) · ruido (4) · rulefit (2) · rvest (3) · salarios (10) · sanidad (5) · savage (4) · scala (5) · scikit-learn (2) · scraping (5) · sección censal (2) · segmentación (2) · seio (2) · semivida (2) · sensibilidad (7) · separación (2) · sesgos (3) · sf (2) · shiny (3) · significancia (2) · simulación (8) · sintaxis (2) · sna (3) · sobol (2) · sobredispersión (9) · sobremuestreo (2) · sociología (8) · software (8) · software libre (2) · sofística (4) · sp (2) · spam (2) · spark (9) · sparkr (2) · sparql (2) · spiegelhalter (8) · spss (3) · ssh (3) · stepwise (2) · stl (4) · student (5) · subjetividad (4) · suficiencia (2) · suicidio (8) · superforecasting (2) · svd (5) · svm (2) · t-test (9) · tablas (3) · tablas de contingencia (4) · tablillas (2) · taleb (3) · taller (6) · tamaño del efecto (2) · tartas (4) · taxis (2) · tecnología (5) · temperaturas (2) · tensorflow (3) · teorema (2) · teorema de bayes (2) · teoría de juegos (2) · terremotos (2) · test de hipótesis (2) · tests ab (2) · tetlock (4) · texto (4) · tidyverse (2) · trabajo (4) · tracemem (4) · transparencia (3) · tráfico (4) · tufte (6) · tukey (5) · twitter (8) · universidad (6) · upc (2) · urbanismo (2) · vacuna (5) · validación cruzada (6) · variables categóricas (6) · variables instrumentales (5) · varian (2) · varios (9) · verosimilitud (6) · visualización (8) · von mises (3) · webscraping (4) · welch (3) · wert (3) · wikipedia (7) · wilcoxon (2) · windows (2) · wolfram (2) · wps (5) · xgboost (4) · xkcd (2) · z-score (2) · zaragoza (2) · zeileis (2) · álgebra (2) · álgebra lineal (2) · árboles de decisión (9) · ética (10)

Temas con una única entrada

20n (1) · 3d (1) · 3pl (1) · abductivo (1) · abenjaldún (1) · abscisas (1) · acos (1) · actuarios (1) · adagio (1) · adversarios (1) · aemet (1) · aeropuertos (1) · agate (1) · akaike (1) · albacete (1) · albedrío (1) · algoritmos genéticos (1) · alicante (1) · almacenamiento (1) · alturas (1) · amigos (1) · anacor (1) · anderson (1) · anomalydetection (1) · anosim (1) · anova (1) · anticonferencia (1) · antifragilidad (1) · antivirus (1) · antropocentrismo (1) · análisis dimensional (1) · análisis pre-post (1) · aplicaciones (1) · apr (1) · aprendizaje por refuerzo (1) · aragonés (1) · archeochron (1) · aritmética (1) · arm (1) · arquetipos (1) · arte (1) · arules (1) · ash (1) · australia (1) · autoencoders (1) · automatización (1) · automl (1) · autores (1) · avast (1) · babilonia (1) · bagging (1) · balanceadores de carga (1) · baloncesto (1) · bamlss (1) · barcelona (1) · bart (1) · baterías (1) · berkson (1) · bernoulli (1) · betabeers (1) · bienes públicos (1) · binequality (1) · binomial negativa (1) · biplots (1) · birrieza (1) · blas (1) · blockchain (1) · bmi (1) · bne (1) · bolas (1) · boosting (1) · borges (1) · botín (1) · box (1) · bump charts (1) · bunge (1) · burr (1) · c++ (1) · cabify (1) · cache (1) · calcetines (1) · calendario (1) · cambio régimen (1) · cambios estructurales (1) · cambridge analytica (1) · campañas (1) · canoas (1) · car (1) · cartografía (1) · cast (1) · cataluña (1) · catboost (1) · cbc (1) · cercas (1) · cern (1) · ceteris paribus (1) · ceuta (1) · changepoint (1) · charlastanes (1) · chino (1) · chrome (1) · ciencias sociales (1) · cine (1) · ciudad inteligente (1) · clara (1) · clima (1) · cloudnumbers (1) · coche eléctrico (1) · coches (1) · cocreta (1) · codificación (1) · cohen (1) · coin-or (1) · cointegración (1) · colegios (1) · comercio (1) · comparaciones múltiples (1) · complejidad (1) · complutense (1) · computing (1) · comunicación (1) · conclusión repugnante (1) · confianza (1) · conjunción (1) · conocimiento (1) · constroptim (1) · constrOptim (1) · contratos (1) · convenciones (1) · convergencia (1) · convexidad (1) · copias de seguridad (1) · correcciones (1) · correos (1) · correspondencias (1) · cournot (1) · coña (1) · crecimiento exponencial (1) · crecimiento lineal (1) · crimen (1) · croquetas (1) · crps (1) · crédito (1) · cuadrados (1) · cueva (1) · cuped (1) · curiosidades (1) · curva logística (1) · curva roc (1) · cópulas (1) · dados (1) · dalex (1) · dalmau (1) · data.tree (1) · dbf (1) · de morgan (1) · decaimiento exponencial (1) · deming (1) · denoising diffusion (1) · deoptimr (1) · desigualdades (1) · desolve (1) · diaconis (1) · diagramas causales (1) · diccionario (1) · diccionarios (1) · diesel (1) · diferencias en diferencias (1) · digitalización (1) · diplomatura (1) · diputados (1) · dirac (1) · direcciones (1) · dirichlet (1) · discretización (1) · diseño experimental (1) · dispersión (1) · distribución (1) · distribución uniforme (1) · diversidad (1) · dlagm (1) · dlm (1) · doble ciego (1) · domingos (1) · doping (1) · drogas (1) · dualidad (1) · dumbar (1) · eco (1) · ecología (1) · ecuaciones (1) · edad (1) · efectos (1) · efectos aleatorios (1) · effects (1) · ejercicios (1) · eldiario (1) · elipses (1) · embalses (1) · emd (1) · emigración (1) · emt (1) · encodings (1) · energía hidráulica (1) · ensayos clínicos (1) · ensembles (1) · enseñanza (1) · entornos (1) · entrenamiento (1) · epf (1) · equivalente cierto (1) · errores (1) · escalabilidad (1) · escaleras (1) · escocia (1) · escohotado (1) · espías (1) · estacionalidad (1) · estadística cualitativa (1) · estadística espacial (1) · estadística frecuentista (1) · estadística oficial (1) · estándares (1) · etf (1) · etiqueta medioambiental (1) · euribor (1) · eventos (1) · eventos improbables (1) · evidencialidad (1) · evt (1) · evtree (1) · exactitud (1) · exponencial (1) · expresiones regulares (1) · exámenes (1) · eólica (1) · facebook (1) · facetas (1) · factominer (1) · factores de bayes (1) · falsos negativos (1) · felicidad (1) · feria del libro (1) · ferrocarriles (1) · feyerabend (1) · filtro de kalman (1) · finlandia (1) · fisiognomía (1) · flexmix (1) · fomenko (1) · foreach (1) · foreign (1) · formas (1) · formatos (1) · foros (1) · fotos (1) · fourier (1) · fractal (1) · frecuencia (1) · frenología (1) · frugal (1) · fugas (1) · funciones no lineales (1) · función de enlace (1) · función logísitica (1) · función logística (1) · fundamentos (1) · fundamentos de la probabilidad (1) · fuzzy (1) · g-test (1) · gamma (1) · gapminder (1) · garch (1) · garoña (1) · gauss (1) · gcdnet (1) · gcp (1) · generalized random forests (1) · genética (1) · geocentrismo (1) · geometría (1) · geomárketing (1) · geosphere (1) · geozoning (1) · gephi (1) · gestión de proyectos (1) · gijón (1) · glmer (1) · glop (1) · goals based investment (1) · google analytics (1) · google refine (1) · googlemaps (1) · gotham (1) · gpt (1) · gpt-2 (1) · gpu (1) · grados de libertad (1) · grados libertad (1) · gRain (1) · granada (1) · gravedad (1) · grf (1) · grupo de control (1) · guerra nuclear (1) · guis (1) · gumbel (1) · hamiltoniano (1) · hana (1) · harari (1) · hash (1) · hawking (1) · hdf5 (1) · healy (1) · heath (1) · heatmap (1) · hechos estilizados (1) · helium (1) · herbart (1) · heráclito (1) · hiperbólica (1) · hipótesis de la variedad (1) · hispanoamérica (1) · historia de la estadística (1) · hmisc (1) · hora (1) · horarios (1) · hospitales (1) · hugo (1) · hume (1) · hunspell (1) · hyperloglog (1) · iberia (1) · ide (1) · identificabilidad (1) · ign (1) · ilusión óptica (1) · iml (1) · importance sampling (1) · imágenes (1) · incendios (1) · incentivos (1) · incrementalidad (1) · independencia (1) · indicadores (1) · individualismo metodológico (1) · indra (1) · indultos (1) · inferencia fiduciaria (1) · informe (1) · ingeniería estadística (1) · inks (1) · inla (1) · insaculación (1) · instagram (1) · instalación (1) · interpretación (1) · intervalos de confianza (1) · intradiario (1) · investigación (1) · io (1) · ipt (1) · ipython (1) · iris (1) · irt (1) · iso (1) · isolation forest (1) · istac (1) · iv (1) · jackknife (1) · jags (1) · japón (1) · java (1) · javascript (1) · jax (1) · jotdown (1) · jumpshot (1) · kant (1) · kaplan-meier (1) · kelly (1) · keras (1) · kernel trick (1) · kernsmooth (1) · kgode (1) · kml (1) · kmlshape (1) · knight (1) · lapuente (1) · latin1 (1) · latour (1) · lattice (1) · lazard (1) · lazy evaluation (1) · le Carré (1) · lectura (1) · lecturas (1) · left (1) · legislación (1) · lema de ito (1) · letalidad (1) · letras (1) · ley de beer (1) · licenciatura (1) · licitaciones (1) · lidar (1) · lindy (1) · lisp (1) · literatura (1) · lluvia (1) · logo (1) · logspline (1) · londres (1) · lopd (1) · loterías (1) · ltv (1) · luz (1) · macros (1) · magriter (1) · magrittr (1) · mareas (1) · margen comercial (1) · marketing (1) · mass (1) · matplotlib (1) · matriz de confusión (1) · maxwell-boltzmann (1) · mds (1) · mecánica (1) · media geométrica (1) · medicina (1) · memes (1) · memisc (1) · meritocracia (1) · metro (1) · metropolis (1) · mfa (1) · mgm (1) · microfundamentos (1) · microsoft (1) · migraciones (1) · miró (1) · miscelánea (1) · mixexp (1) · mixtape (1) · mmd (1) · mob (1) · model4you (1) · modelización estadística (1) · modelos bayesianos (1) · modelos lineales (1) · modelos longitudinales (1) · modelos probabilísticos (1) · modelplotr (1) · momocs (1) · monedas (1) · moneyball (1) · monitores (1) · monitorización (1) · MonoPoly (1) · morosidad (1) · mosaico (1) · motif (1) · movilidad social (1) · movimiento browniano (1) · mrp (1) · multivarianza (1) · municipios (1) · murcia (1) · mvbutils (1) · mxnet (1) · máxima verosimilitud (1) · mérito (1) · naive bayes (1) · nannyml (1) · nepotismo (1) · netezza (1) · networktree (1) · neyman (1) · nhst (1) · nimble (1) · ninis (1) · nodejs (1) · normalización (1) · novelas (1) · nowcast (1) · nubes (1) · nutriscore (1) · números aleatorios (1) · obituarios (1) · obsidian (1) · ocr (1) · oecd (1) · oferta (1) · off-topic (1) · offset (1) · omics (1) · onls (1) · onodo (1) · opacidad (1) · opciones (1) · openai (1) · openzmeter (1) · operacionalismo (1) · opinión (1) · oposiciones (1) · or-tools (1) · oracle (1) · ordenadas (1) · outer (1) · p-curva (1) · p-valor (1) · padrón (1) · palabras (1) · palmtree (1) · pam (1) · pandas (1) · paracaídas (1) · paradoja de berkson (1) · paralelismo (1) · parametrización (1) · pareto (1) · paripé (1) · parlamento (1) · pascal (1) · patentes (1) · paypal (1) · país (1) · pc-axis (1) · pd (1) · pdf (1) · pearson (1) · películas (1) · pergamino (1) · perspectivismo (1) · peter (1) · petróleo (1) · pi (1) · pipes (1) · pirrón (1) · pirámide de edad (1) · placebo (1) · plan e (1) · playfair (1) · plotly (1) · plotrix (1) · pocket (1) · podcast (1) · podemos (1) · poesía (1) · policía (1) · politibot (1) · politikon (1) · pooling (1) · popgraph (1) · portugal (1) · postgis (1) · powerpoint (1) · precioestato (1) · predicciones (1) · predicción conforme (1) · prejuicios (1) · preprocesamiento (1) · presentaciones (1) · prevalencia (1) · prim (1) · principio de indiferencia (1) · principio de mediocridad (1) · prioris informativas (1) · probabilidad condicional (1) · probabilidad subjetiva (1) · probabilidades conjuntas (1) · probabilidades marginales (1) · probabilidades pequeñas (1) · probabilismo (1) · probabilorismo (1) · probit (1) · problema (1) · procesamiento de imágenes (1) · prof.tree (1) · programación lineal (1) · progreso (1) · proj (1) · promedios (1) · propagación (1) · propagación de errores (1) · propagate (1) · pulp (1) · pulpo (1) · purrr (1) · pérdida (1) · Q* (1) · qgraph (1) · quincuncio (1) · r consortium (1) · r-consortium (1) · r-help-es (1) · racionalidad (1) · radix (1) · raking (1) · random (1) · raster (1) · rcpp (1) · readxl (1) · recencia (1) · reciclaje (1) · rectángulos (1) · recurrente (1) · recursividad (1) · redes (1) · redis (1) · ree (1) · referéndums (1) · regex (1) · registro mercantil (1) · regresión no lineal (1) · regresión por cuantiles (1) · relatividad (1) · relativismo (1) · reshape (1) · resíduos (1) · retina (1) · reveal (1) · rgdal (1) · rgl (1) · ridge (1) · riesgo relativo (1) · rio (1) · rioja (1) · rjava (1) · rjdbc (1) · rjsonio (1) · rlof (1) · rmr2 (1) · robustbase (1) · rodeo (1) · roi (1) · romer (1) · rpca (1) · rsa (1) · rss (1) · rtb (1) · rutas (1) · rv (1) · salamanca (1) · salud pública (1) · samian (1) · santander (1) · sdmx (1) · secreto estadístico (1) · seguridad (1) · seis sigma (1) · seismic (1) · selección de variables (1) · selectividad (1) · semilla (1) · sequía (1) · serfling (1) · sesgo de supervivencia (1) · sexo (1) · shannon (1) · shapley (1) · shell script (1) · shinyapps (1) · shopping (1) · siane (1) · sigmoide (1) · similitud (1) · siquiatría (1) · sir (1) · siria (1) · sistemas (1) · sistemas complejos (1) · sistemas de recomendación (1) · smart city (1) · snow (1) · sobreajuste (1) · sociología normativa (1) · socks (1) · socr (1) · sokal (1) · solo (1) · solow (1) · solucionismo (1) · sorpresa (1) · sort (1) · sorteos (1) · spdep (1) · spinoza (1) · splines (1) · spufford (1) · spyder (1) · sql server (1) · stable diffusion (1) · stanarm (1) · stationaRy (1) · stealthflation (1) · stigler (1) · stiglitz (1) · storr (1) · subastas (1) · subsidios (1) · subvenciones (1) · sumatorio (1) · sunstein (1) · surveillance (1) · svb (1) · sweave (1) · swirl (1) · syberia (1) · t-sne (1) · tabarrok (1) · tabla de mortalidad (1) · tabulizer (1) · tasa tobin (1) · tcl (1) · telegram (1) · telepatía (1) · temporalidad (1) · tenerife (1) · teorema central del límite (1) · teoría (1) · teradata (1) · termodinámica (1) · terra (1) · terrazas (1) · terrorismo (1) · tesis (1) · tezanos (1) · tfm (1) · tfprobability (1) · thaler (1) · thyssen (1) · tibshirani (1) · tiempo (1) · tiobe (1) · tipsters (1) · tirole (1) · tm (1) · tolstoi (1) · train-test (1) · travis (1) · treemaps (1) · trellis (1) · trtf (1) · tsintermittent (1) · tsne (1) · tsp (1) · turing (1) · turismo (1) · turnos (1) · turquía (1) · tve (1) · tversky (1) · técnica (1) · uc3m (1) · umap (1) · unicode (1) · unix (1) · unvotes (1) · urss (1) · utf8 (1) · utilidad (1) · utilitarismo (1) · vacunas (1) · vademécum (1) · valencia (1) · valores extremos (1) · vapnik (1) · variabilidad (1) · variables aleatorias (1) · varimax (1) · vcrpart (1) · vectorización (1) · vegan (1) · vim (1) · violencia (1) · vitruvio (1) · vivienda (1) · vizhealth (1) · viñetas (1) · volkswagen (1) · von neumann (1) · votaciones (1) · vscode (1) · wasserstein (1) · watchmen (1) · watson (1) · weldon (1) · whisker (1) · wifi (1) · will smith (1) · windson (1) · woe (1) · wordcloud (1) · wordpress (1) · worlde (1) · xbox (1) · xlconnect (1) · xlsx (1) · xts (1) · yeoman (1) · zillow (1) · zombis (1) · zoo (1) · álgebra de variables aleatorias (1) · árboles (1) · árboles olvidadizos (1) · áreas pequeñas (1) · índices (1)

Más cortos sobre LLMs

Fri, 19 Apr 2024 00:00:00 +0000

I.

Aquí se explica cómo es una mezcla de expertos, la arquitectura detrás de LLMs como Mixtral (el LLM que más uso, sobre todo en APIs). Curiosamente, la arquitectura está basada en ideas de este artículo… ¡de 1991!

II.

Aquí se tratan los LMMs (donde la L de language se ha reemplazado por la M de multimodal). Se dice:

A muy alto nivel, un sistema multimodal consta de los siguientes componentes:

Un codificador para cada modo de datos que genere los embeddings correspondientes.

Un procedimiento para alinear los embeddings de los diferentes modos en el mismo espacio.

[Solo para modelos generativos] Un modelo de lenguaje para generar respuestas textuales. Como las entradas pueden contener tanto texto como elementos visuales, hace falta desarrollar técnicas para condicionar el modelo de lenguaje no solo al texto sino también a los elementos visuales.

El segundo punto me recuerda a lo de aquellos ratones que acordaron ponerle un cascabel al gato.

III.

Generalmente, pasan cosas como

pero si lees lo que pone aquí verás cómo es posible conseguir

añadiendo sufijos mágicos.

IV.

Se ve que LMQL es una cosa que permite escribir consultas del tipo

beam(n=3)
    "Q: Say 'Hello, {name}!'"
    "A: [RESPONSE]"
from "openai/text-davinci-003"
where len(TOKENS(RESPONSE)) < 20

V.

La segunda aplicación más obvia (y que más se me ha resistido cuando la he probado en casa), de los LLMs: crear un LLM que razone sobre tus propios documentos.

Estadística: lo general y lo particular

Thu, 18 Apr 2024 00:00:00 +0000

No hay que perder de vista la etimología de la palabra estadística: viene de estado. La estadística es particularmente útil si eres el ministro de algo. Pero los más no lo somos. Los más nos enfrentamos a problemas como los que describo a continuación.

1.

Cito de Gelman:

Hay un conflicto entre dos principios de la medicina basada en evidencia: (1) la dependencia de estimaciones estadísticamente significativas de ensayos controlados y (2) la toma de decisiones para pacientes individuales. No hay forma de llegar al paso 2 sin ir más allá del paso 1.

2.

Extraigo el gráfico

de este artículo, que arranca así:

A veces, se confunde la certeza de los estadísticos con la de muestras [individuales] de las distribuciones que resumen.

El ministro ve la parte de la izquierda. Tú, lector, eres no más un puntico (sea verde o morado) de la parte de la derecha.

3.

Aquí se habla de la vibecession. Se trata de un término muy oportuno acuñado por el autor de la entrada enlazada que describe una situación en la que:

La gente (de EEUU) dice sentirse económicamente bien de forma mayoritaria (según encuestas)
a la vez que opinan que la situación económica del país es calamitosa.

(Más al respecto aquí).

Uno de mis entretenimientos favoritos de los últimos tiempos, una vez asumido que jamás seré ministra, es confrontar lo que dice el INE con lo que observo en mi radio vital. La doxa y la gnosis, si se quiere. Es una manera de leer cifras que recomiendo a mis lectores.

Cortos (sobre R)

Wed, 17 Apr 2024 00:00:00 +0000

I.

El artículo Locally Adaptive Tree-Based Thresholding Using the treethresh Package in R describe una versión sofisticada de un truco que suelo usar para detecter cambios de régimen, etc., en series temporales:

Quieres modelar una serie temporal
Pero hay motivos para pensar que en realidad es la concatenación de varias series temporales distintas, con regímenes distintos.
Quieres filtrar y quedarte con la representativa de hoy (y el corto plazo vendiero).
Luego usas árboles más o menos como en el artículo.

II.

Lo que se cuenta aquí me gusta y no me gusta:

Me gusta en tanto que explora modelos razonables fuera del camino más trillado.
No me gusta en tanto que lo hace recurriendo a automatismos en lugar de usar un procedimiento más artesanal y razonado.

III.

Cosas que hay que saber y tener en cuenta a la hora de realizar un análisis pre-post (intervención).

IV.

La función allFit del paquete lme4 permite reajustar el modelo usando distintos optimizadores (numéricos).

Lo cual debería llevar a preguntarnos: ¿por qué habríamos de querer eso?

V.

Lo siento, pero no me gusta ggbrick. Es anti-Tufte. No que todo lo Tufte sea necesariamente bueno; pero lo no estrictamente Tufte tiene que estar plusquamjustificado.

Cortos (sobre IA y LLMs, fundamentalmente)

Tue, 09 Apr 2024 00:00:00 +0000

I.

Que ssh tenía una puerta trasera (en sus últimas versiones). Está por todas partes, incluido en The Economist. Pasó, se ve, esto:

El backdoor fue plantado en las XZ Utils.
Su principal mantenedor es un tal Lasse Collin, que, se dice, no parece andar muy bien de salud mental.
Otro desarrollador, Jia Tan, colaboró en el proyecto durante un tiempo. Finalmente, en febrero, acabó insertando el código malicioso.
Se ve que el tal Jia Tan no existe; probablemente, se trate de una identidad falsa manejada por… ¿el gobierno ruso?

Véase también esta descripción más técnica y detallada.

Hummmm…

II.

Al final he podido hacer pruebas de almacenamiento de datos en hojas de papel A4 usando una impresora estándar y la cámara del móvil para leerlos.

Más, aquí (para, p.e., averiguar cómo se compara este novedoso sistema de almacenamiento con los antiguos disquettes).

III.

gt es a Python como great_tables es a Python, parece.

IV.

Arc parace ser un navegador —dizque basado en la IA— muy loco del que se ha dicho, por ejemplo, todo esto. ¡A saber!

V.

Un pronunciamiento en favor de la palabra escrita:

En lugar de reuniones (“obtendremos la aprobación en la próxima revisión semanal”), utiliza documentos asíncronos (“comenta en este documento antes del viernes si estás en desacuerdo con el plan”).

Algunas notas sobre los CIs

Thu, 04 Apr 2024 00:00:00 +0000

I.

Supongamos que $\theta$ es un parámetro real. John D. Cook le construye el siguiente intervalo del confianza al 95%:

Se toma un dado de 20 caras (como los de rol).
Si sale un 1, el intervalo de confianza es el conjunto vacío.
Si sale cualquier otro valor, el intervalo de confianza es el eje real entero.

Es tan perfectamente válido (desde el punto de vista frecuentista) como cualquier otro.

II.

La mejor manera que he encontrado para entender qué es un intervalo de confianza frecuentista es el de una urna enorme.

En esa urna hay bolas que son intervalos. Las bolas blancas contienen el parámetro de interés; las negras, no. Hay un 95% de bolas blancas.

Con una salvedad muy importante: las bolas de la urna están envueltas en un papel opaco y no se puede ver su color.

III.

Como no se puede ver el color de las bolas, no se acaba de entender bien lo que se discute aquí.

Aplicaría si pudieras ver el color de las bolas. Pero no puedes verlo. La conclusión tiene que ser otra.

Si pudiésemos ver el color de las bolas, en lugar de decir en el 100% de las ocasiones que $(a,b)$ es un intervalo de confianza al 95%, lo que veríamos es:

En el 95% de las ocasiones, que el parámetro de interés está necesariamente en $(a,b)$.
En el 5% de las ocasiones, que el parámetro de interés está necesariamente fuera de $(a,b)$.

IV.

Obviamente, todo el mundo parace estar implícita o explícitamente de acuerdo con Cook (en el primer enlace) cuando dice:

La forma en que casi todo el mundo interpreta un intervalo de confianza frecuentista no está justificada por la teoría frecuentista. Y sin embargo, se puede justificar diciendo que si lo tratara como un intervalo de credibilidad bayesiano, obtendría casi el mismo resultado.

Las ANOVAs tienen interés meramente histórico

Tue, 02 Apr 2024 00:00:00 +0000

Todo eso que se conoce como ANOVA tiene, a lo más, interés histórico. Se puede hacer más y mejor con igual o menor esfuezo. ¿Cómo? Aplicando lo que se cuenta aquí.

Nota: Interés histórico no significa no interés: muchas veces existe un solapamiento importante entre el orden histórico de los conceptos y el orden en que es más natural aprenderlos (o enseñarlos).

Hoy vuelve a ser el día internacional de la copia de seguridad

Sun, 31 Mar 2024 00:00:00 +0000

Hoy, como cada 31 de marzo, se celebra el día de la copia de seguridad.

Así que ya sabéis qué hacer:

Coda

Revisando mis archivos, vi que ya hablé del asunto en 2015, 2017 y 2023.

¿Cómo se interpretan los resultados de estas regresiones

Thu, 28 Mar 2024 00:00:00 +0000

Esta entrada trata sobre las aparentes contradicciones que surgen cuando se comparan las regresiones $y \sim x$ y $x \sim y$. En particular, aqui se muestran

que vienen a decir:

El tal Rodgers rinde por encima de lo que se espera para su salario.
Para lo que rinde, gana demasiado.

Lo cual, a pesar de lo contradictorio, no es un fenómeno extrañísimo. Si uno hace

n <- 100
x <- rnorm(n)

a <- .3
b <- .5
y <- a * x + b + 0.1 * rnorm(100)

reg1 <- lm(y ~ x)
reg2 <- lm(x ~ y)

which.1 <- y > predict(reg1, data.frame(x = x))
which.2 <- x > predict(reg2, data.frame(y = y))
tmp <- cbind(which.1, which.2)
tmp <- which(tmp[,1] & tmp[,2])

ab <- coef(reg2)

plot(x, y)
abline(reg1, col = "blue")
abline(b = 1/ ab[2], a = - ab[1] / ab[2], col = "green")

points(x[tmp], y[tmp], col = "red", pch = 16)

puede obtener tantos gráficos de la forma

como uno quiera; en todos ellos, los puntos sólidos rojos son los rodgers.

Por si alguien no la conoce, enlazo la discusión de Andrew Gelman sobre el asunto.

La mía es más o menos así: este ejemplo pone de manifiesto un bug de la regresión lineal que uno puede convertir en feature cuando lo que le interesa es invertir el significado de unos números. Dicho de otra manera, dado que hoy en día está de moda despejar (como en una ecuación) la figura del relator y hacer que sean los propios números los que armen las historias, ese relator oculto entre las bambalinas puede —no siempre se da la feliz circunstancia, como evidencian los gráficos anteriores— tener la opción de elegir entre $y \sim x$ o $x \sim y$ para que los corolarios sean del agrado de quien ha de pagarle la nómina.