A finales de los 80s y principios de los 90s, se inicio una cruzada en nuestro pais a favor de mantener la letra ñ en los teclados de los ordenadores. En ese momento, soportar la letra era un valor añadido para cualquier producto, sobre todo para organismos oficiales, sea una base de datos que permitia ñs en las columnas, sea un lenguaje que lo permitia en los nombres ... Con la llegada de Internet y la estandarizacion de la misma, via USA, todo este esfuerzo se ha ido al traste, solo hay que recordar que productos como canyamo o la falta de una url como www.españa.com, etc La adopcion de la ñ ha venido por url encoding, html escape o xml escape, pero no es muy natural. Otras letras ya han perecido ante el acoso del ingles, como por ejemplo, la ll o la ch, y no digamos de las ç o de los caracteres especiales franceses o griegos. Sin embargo, se sigue manteniendo la W como letra unica en el teclado. Debemos presionar para que la ñ forme parte de las URLs y de los caracteres sin escapar de XML y HTML o por el contrario vamos a dejar que la cultura anglosajona elimine nuestros signos de identidad.
Posted at 10:27AM dic 07, 2006 by Batch for the Java TM in General | Comentarios[5]
Una pregunta: ¿si soportamos la ñ en las URL's, como van los usuarios con teclado anglosajón a acceder a nuestra página? ¿No podrán? ¿No queremos que la visiten? :-) Más miedo me da el anuncio de la burger king que no el que no haya ñ'es en las URL's.
Enviado por ibon en diciembre 07, 2006 a las 11:20 AM GMT+01:00 #
Hace tiempo que la Ñ, vocales acentuadas, y demás caracteres no ingleses, han sido tenidos en cuenta y adoptados, como caracteres normales y corrientes. En la espefificación Unicode están incluídos, así como caracteres chinos, japoneses, árabes, etc.
En HTML (y XML) puedes poner Ñs sin problemas, si se utiliza la codificación UTF-8 (que es la utilizada por defecto en XML), con lo que nos olvidamos de entidades tipo ñ y cosas de esas. En el caso concreto del castellano, también vale la codificación ISO-8859-1 o ISO-8859-15 (que incluye el símbolo del euro).
También se pueden especificar URLs con Ñs y vocales acentuadas, gracias al IDN, como por ejemplo:
http://www.ñandú.cl/
que es un dominio real, y que funciona. Eso sí, el navegador tiene que soportar IDN, cosa que el Explorer no hace (para variar). Pero con Firefox u Opera, no tendréis problema.
Y para teclados sin esas letras (o navegadores sin soporte IDN como el Explorer), existe el llamado "punycode", que es una representación de esos dominios en ASCII. Así, la URL anterior puede escribirse en punycode como
http://www.xn--and-6ma2c.cl/
Y así, se puede teclear desde un teclado inglés, o usar con el Explorer.
En esa página, además podéis ver (al igual que en muchas otras, como la mía) que no se usan entidades tipo "&loquesea;" para Ñs y acentos, sino que estos caracteres están puesto directamente "a pelo".
Enviado por Alf en diciembre 07, 2006 a las 01:19 PM GMT+01:00 #
Desconocia IDN y el "punycode", pero la verdad estoy un poco cabreado con un producto USA, que permite Ñ en los nombres de las columnas de los campos de las bases de datos pero al generarlos como XML le llegan desde el cliente al servidor como signos extraños mal formados, no he encontrado la manera de definir en XML <ESPAÑOL>true</ESPAÑOL> ya que me dice que esta formado, igual es un problema de donde se ha hecho el producto y claro no ha tenido en cuenta la Ñ.
Enviado por batch4j en diciembre 07, 2006 a las 06:48 PM GMT+01:00 #
Lo que comentas, tiene toda la pinta de un problema de "encoding" del juego de caracteres. Fíjate en el atributo "encoding" de la declaración XML, a ver qué pone (si no viene, el valor por defecto es UTF-8). Puede que el lector (o parseador) XML no lo esté teniendo en cuenta, y utilice otro valor. Pese a que el UTF-8 es el estándar XML, la mayoría de aplicaciones usan ISO-8859-1 o Windows-1252 (si usas windows). En Java, se usa UTF-16 de forma nativa.
Una forma de ver si ese es el problema, es examinar el fichero con un visor hexadecimal, y buscar la codificación de una de las letras "problemáticas" en los juegos de caracteres que te he mencionado (se puede consultar en la Wikipedia). Ojo, en UTF-8, los caracteres "especiales" se codifican con más de 1 byte (entre 2 y 4, dependiendo del carácter). En UTF-16, todos se codifican con 2 bytes.
Enviado por Alf en diciembre 10, 2006 a las 12:27 PM GMT+01:00 #
Manaña lo probare y vere si puedo cambiar el encoding alguna manera, pero dudo de que el encoding para xml lo tenga la herramienta parametrizable.
Enviado por batch4j en diciembre 10, 2006 a las 08:11 PM GMT+01:00 #