hitcounter

Sospechosos Habituales

Hace mucho tiempo en la inhóspita blogosfera una panda de frikis creó Sospechosos Habituales. Desde aquel fatídico día nadie está libre de sospecha. No trates de disimular, si vienes mucho por aquí tu también serás un... Sospechoso Habitual


ReCAPTCHA


Los CAPTCHAs pueden ser más o menos difíciles pero por encima de todo son muy molestos por la desconfianza y la pérdida de tiempo que suponen.

En los comentarios de este blog los usamos como mal menor para evitar el el SPAM indiscriminado y la verdad es que funcionan razonablemente bien. Para un ordenador es relativamente difícil reconocer unas letras que estén suficientemente deformadas. Para un humano normal el proceso suele ser la mar de sencillo.

Dejando aparte que seguramente hay soluciones mejores la verdad es que es difícil evitar el uso de CAPTCHAS hoy por hoy así que, dado que la desconfianza va a seguir ahí, quizás podamos mejorar el tema "perdida de tiempo".

Una MUY BUENA IDEA™ es la que han tenido en ReCAPTCHA. Se trata de aprovechar los CAPTCHAS para digitalizar textos correctamente. Es decir, una especie de OCR voluntario y distribuido. Para situarles un poco les diré que los sistemas de Reconocimiento Óptico de Caracteres (OCR) acostumbran a fallar más que una escopeta de feria y a la hora de digitalizar textos impresos siempre hay que revisar el resultado para asegurarse que al programa de OCR no se le haya ido la pinza.

Pues bien, la idea de ReCAPTCHA es muy sencilla, cada vez que querramos validarnos como humanos™ en una web que use el sistema ReCAPTCHA nos aparecerá una imagen con dos palabras escaneadas y nosotros haremos de OCR a ojo, es decir, digitalizaremos las palabras. Así ayudaremos a digitalizar libros enteros con nuestras pequeñas aportaciones.

Ampliar!

Si, se lo que están pensando: si somos nosotros los que "traducimos" la palabra correctamente y sus programas de OCR no pueden hacerlo entonces ¿cómo sabe el sistema que lo hemos hecho bien y por lo tanto somos humanos? Pues muy sencillo, te ponen dos palabras, una de ellas es de control, fue reconocida correctamente en su momento (por su programa de OCR) y posteriormente deformada, mientras que la otra es la palabra que realmente tenemos que reconocer porque su programa no puede. Como no sabemos cual es cual tenemos que escribir bien las dos (eso evita posibles gamberradas) y como hay que escribir correctamente al menos una de las dos palabras no puede ser hecho por programas de manera automática.

Una solución brillante y tremendamente útil. Chapeau!

Vía: este comentario de Jose.

Etiquetas: ,


Sospechoso: (Denúnciame)

Fichado el día 06 junio 2007 a las: 00:01


  • Pues a veces hay algunos que me cuestan lo suyo, como por ejemplo este captcha

    Por Blogger Dr.Mabuse @ 6/6/07 12:10 a. m.  


  • Con la excusa de que se hace un bien para la Humanidad, me veo tirándome horas muertas en la web esta. Ya llevo resueltos unos cuantos, y es muy adictivo.

    Por Blogger auster @ 6/6/07 12:32 a. m.  


  • Una magnífica idea de cómo aprovechar el incordio de los captchas. ¿Cuándo dices que lo incorporas?

    Por Anonymous Camarada Bakunin @ 6/6/07 9:14 a. m.  


  • Dr. Mabuse Si siguieses todos los links que pongo verías que ya he hablado de ese CAPTCHA que, por cierto, no debería suponer ningún problema para tí (arctan tiende a 0 y el seno está acotado)

    Auster a mí me pasó lo mismo

    Camarada la cosa está chunga, los comentarios hoy por hoy me los gestiona blogger y hasta que no me monte un blog con dominio y hosting propio veo muy difícil que aparezcan ReCAPTCHAS en los coments... Aunque con algo de suerte se convierte en un estándar, lo compra Google y lo incorpora a todos sus servicios.

    Por Blogger Papá Oso @ 6/6/07 9:28 a. m.  


  • Pues si esta genialidad tira pa'lante ya me veo buscándome otro trabajo, porque en parte me gano la vida "arreglando" con un boli rojo las pifias de los OCR. De todas maneras en las editoriales hace tiempo que trabajan con otro sistema que se parece más a hacerle una foto digital a la página que se quiere reproducir que a escanearla.

    Por Anonymous Mar @ 6/6/07 10:20 a. m.  


  • Mar el problema no es tanto la adquisición de la imagen (vía foto o vía scanner) sino el tratamiento posterior de la misma. Los programas OCR trabajan con una imagen independientemente del periférico con el que se haya adquirido.

    En todo caso la verdad es que han mejorado mucho con el tiempo y que tomar una imagen de mejor calidad ayuda a reconocerla mejor.

    Por Blogger Papá Oso @ 6/6/07 11:52 a. m.  


  • Por cierto, hace tiempo que se trabaja en sistemas OCR que reconozcan partituras, por ejemplo para pasarlas a midi y volverlas a editar. Pero creo que de momento funcionan tan bien como en textos...

    Por Blogger NaaN @ 8/6/07 12:51 a. m.  


  • Si la finalidad de los CAPTCHAS es la de no permitir a una máquina emular a un usuario humano para que no haya SPAM, con esta web, figura que perfeccionamos el método de reconocimiento de texto y que, algún día, ni los CAPTCHAS puedan parar a un PC que se dedique a SPAMMEAR con un sistema de OCR para saltarse los CAPTCHAS, no ?

    Hablad sobre el CAPTCHA de Google Groups para ver el e-mail de un usuario, por favor. El de las operaciones aritméticas.

    Por Blogger polromeu @ 11/6/07 10:49 a. m.  


Publicar un comentario




Chivatos:

Crear un enlace



« VOLVER