Web semántica

La Web Semántica amplía la Web para facilitar a las computadoras el intercambio de datos y su uso más fácil; Por ejemplo, la palabra "Bremen" en un documento web puede complementarse con información sobre si se refiere al nombre del barco, la familia o la ciudad. Esta información adicional explica los datos que de otro modo no estarían estructurados. Para la implementación se utilizan estándares para la publicación y el uso de datos legibles por máquina (especialmente RDF ).

Si bien las personas pueden inferir dicha información del contexto dado (de todo el texto, sobre el tipo de publicación o la categoría en el mismo, imágenes, etc.) y construir inconscientemente tales vínculos, las máquinas primero deben aprender este contexto; para ello, el contenido está vinculado con más información. La Web Semántica describe esto conceptualmente como un " Giant Global Graph " (" Engl. , Giant global graph "). Todas las cosas de interés se identifican y se les asigna una dirección única como nodos , que a su vez están conectados entre sí por bordes (también cada uno con un nombre claro). Los documentos individuales en la web luego describen una serie de bordes, y la totalidad de todos estos bordes corresponde al gráfico global.

ejemplo

En el siguiente ejemplo, en el texto "Paul Schuster nació en Dresde" en un sitio web, el nombre de una persona está vinculado a su lugar de nacimiento. El fragmento de un documento HTML muestra cómo se describe un pequeño gráfico en la sintaxis RDFa utilizando el vocabulario de schema.org y un ID de Wikidata :

<div vocab="http://schema.org/" typeof="Person">
  <span property="name">Paul Schuster</span> wurde in
    <span property="birthPlace" typeof="Place" href="http://www.wikidata.org/entity/Q1731">
      <span property="name">Dresden</span>
    </span> geboren.
</div>
Gráfico resultante del ejemplo RDFa

El ejemplo define los siguientes cinco triples (mostrados en formato de tortuga ). En este caso, cada triplete representa un borde (en inglés llamado borde ) en el gráfico resultante: La primera parte del triple (el sujeto ) es el nombre del nodo, donde comienza el borde, la segunda parte del triple (el predicado ) el tipo de borde, y la tercera y última parte del triple (el objeto ) o el nombre del nodo en el que termina el borde o un valor literal (por ejemplo, un texto, un número, etc.).

_:a <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/Person> .
_:a <http://schema.org/name> "Paul Schuster" .
_:a <http://schema.org/birthPlace> <http://www.wikidata.org/entity/Q1731> .
<http://www.wikidata.org/entity/Q1731> <http://schema.org/itemtype> <http://schema.org/Place> .
<http://www.wikidata.org/entity/Q1731> <http://schema.org/name> "Dresden" .

Los triples dan como resultado el gráfico adyacente (figura superior).

Gráfico resultante del ejemplo RDFa, enriquecido con información adicional de la web

Una de las ventajas de usar URI es que pueden resolverse a través del protocolo HTTP y, a menudo, devuelven un documento que describe con más detalle el URI dado (este es el llamado principio de datos abiertos enlazados ). En el ejemplo dado, por ejemplo, los URI de los nodos y bordes (p. Ej.http://schema.org/Person, http://schema.org/birthPlace. http://www.wikidata.org/entity/Q1731) resolver todo y luego recibir más descripciones, p. ej. B. que Dresde es una ciudad en Alemania, o que una persona también puede ser ficticia.

El gráfico adyacente (figura inferior) muestra el ejemplo anterior, enriquecido por (algunos ejemplares) triples de los documentos que uno recibe cuando uno http://schema.org/Person (borde verde) y http://www.wikidata.org/entity/Q1731 (bordes azules) se disuelve.

Además de los bordes dados explícitamente en los documentos, también se pueden inferir otros bordes automáticamente : el triple

_:a <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/Person> .

del fragmento RDFa original, junto con el triple

<http://schema.org/Person> <http://www.w3.org/2002/07/owl#equivalentClass> <http://xmlns.com/foaf/0.1/Person> .

del documento que puede encontrar en http://schema.org/Personencontrado (en el gráfico el borde verde), permite que se concluya el siguiente triple bajo la semántica de OWL (en el gráfico, el borde rojo discontinuo):

_:a <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://xmlns.com/foaf/0.1/Person> .

expresión

El nombre de Web Semántica ( Red Semántica Alemana ) a menudo ha dado lugar a malentendidos y discusiones. Se han sugerido muchos otros términos, pero en última instancia todos tienen el mismo objetivo:

  • Basado en el término Web 2.0 , según John Markoff , se habla de Web 3.0 cuando se agregan los conceptos de Web Semántica a los conceptos de Web 2.0.
  • En contraste con el término WWW , Tim Berners-Lee, el fundador de WWW, introdujo el término Giant Global Graph (GGG) , que enfatiza la estructura de la Web Semántica como una estructura global de gráficos vinculados.
  • El término Linked Open Data se introdujo alrededor de 2007, en parte para diferenciarlo de la Web Semántica, que se considera pesada y complicada .
  • El propio W3C cambió en diciembre de 2013 como el nuevo término Web of Data , Web data

Lo esencial

El concepto se basa en una sugerencia de Tim Berners-Lee , el fundador de la World Wide Web: la Web Semántica es una extensión de la Web convencional, en la que la información recibe significados claros para facilitar el trabajo entre el hombre y la máquina (“ La Web Semántica es una extensión de la Web actual en la que se le da un significado bien definido a la información, lo que permite que las computadoras y las personas trabajen en cooperación ”). La Web Semántica se basa en estándares web existentes y trabaja en el campo de la representación del conocimiento .

Web "clásica"

La web "clásica" (solo texto), la web de documentos , tal como la introdujo Tim Berners-Lee y se ha expandido continuamente desde entonces, se basa en una serie de estándares:

  • HTML como lenguaje de marcado para el contenido de documentos generalmente de texto,
  • URL como notación para direcciones de cualquier documento (es decir, archivos) en la web y
  • HTTP como protocolo para acceder y editar estos documentos.

Muy pronto, también se incorporaron e intercambiaron imágenes en formatos como GIF y JPEG en documentos HTML. Ya en la propuesta original de Tim Berners-Lee, de 1989, señaló que estos estándares pueden usarse no solo para el intercambio de documentos completos, sino también para el intercambio de datos en red. Sin embargo, al igual que otras partes de la propuesta (por ejemplo, que todas las páginas de la web deberían ser fáciles de editar), inicialmente se perdió.

Por lo tanto, la mayor parte del contenido de la web actual, p. Ej. Por ejemplo: texto, imágenes y videos en lenguaje natural, en su mayoría no estructurados en el sentido de que la estructura de un documento HTML (clásico) no establece explícitamente si un fragmento de texto es: un nombre o apellido, el nombre de una ciudad o empresa o una dirección. Esto complica el procesamiento automático del contenido, lo que sería deseable en vista del rápido crecimiento de la cantidad de información disponible.

Los estándares de la Web Semántica están destinados a ofrecer soluciones a este problema: las partes individuales del texto no solo se pueden formatear para su apariencia, sino que también se pueden marcar con su contenido / significado, y los textos completos se pueden estructurar para que las computadoras puedan procesar datos fácilmente. leer de los documentos.

Mediante el uso del modelo de datos RDF común y un lenguaje de ontología estandarizado , los datos también se pueden integrar en todo el mundo e incluso se puede derivar conocimiento implícito de los datos.

Metadatos

Los documentos HTML ya tenían la opción de contener una cantidad limitada de metadatos , en este caso datos sobre los documentos respectivos.

A mediados de la década de 1990, Ramanathan V. Guha (estudiante de McCarthy y Feigenbaum y empleado del proyecto Cyc ) comenzó a trabajar en el Meta Content Framework (MCF), inicialmente en Apple y desde 1997 en Netscape . El objetivo del MCF era crear una base general para los metadatos. Al mismo tiempo, el consorcio de estándares web W3C estaba trabajando en XML . La idea de MCF se combinó luego con la sintaxis de XML para crear la primera versión de RDF.

El primer uso generalizado de RDF se encontró en RSS , un estándar de alimentación de pantalla y suscribirse. Esto se utilizó principalmente en blogs a los que los lectores de RSS podían suscribirse.

Aunque inicialmente solo se pensó en los metadatos, especialmente en los metadatos de los documentos disponibles en la web, que luego pueden ser evaluados por indexación y motores de búsqueda, esta restricción ya no se aplica con el desarrollo de RDF y, a más tardar, con el artículo de Scientific American 2001. RDF es un estándar para el intercambio de datos y de ninguna manera está restringido a los metadatos. Sin embargo, en muchos textos de la Web Semántica, solo se utilizan metadatos obsoletos.

La mayoría de las sintaxis para intercambiar RDF (NTriples, N3 , RDF / XML, JSON-LD) no se pueden usar directamente en el texto para marcar pasajes de texto (a diferencia de RDFa).

En consecuencia, los localizadores uniformes de recursos (URL), que se utilizan para abordar documentos en la web, se ampliaron a identificadores uniformes de recursos (URI), que se pueden utilizar para identificar cualquier cosa, especialmente cosas que se encuentran en el mundo (por ejemplo, casas, personas , libros) o son simplemente abstractos (por ejemplo, ideas, religiones, relaciones).

Representación del conocimiento

Los orígenes de la Web Semántica se encuentran, entre otras cosas, en el área de investigación de la inteligencia artificial , en particular en el subárea de representación del conocimiento . MCF ya se basaba sistemáticamente en la lógica de predicados .

Logotipo del comité de normalización de la WWW

Originalmente, los atributos de los metadatos en los documentos estaban estrictamente limitados: en HTML era posible especificar palabras clave, fechas de publicación, autores, etc. Luego, esta área fue ampliada en gran medida y sistemáticamente ampliada por el grupo Dublin Core , incorporando una gran experiencia de estudios bibliotecarios. Pero eso también resultó en un vocabulario limitado, i. H. a un pequeño conjunto de atributos y tipos utilizables. Un programa de computadora puede procesar un vocabulario tan pequeño con relativamente poco esfuerzo.

Sin embargo, uno de los objetivos de la Web Semántica era poder representar cualquier dato. Para ello era necesario poder ampliar el vocabulario, es decir, declarar cualquier relación, atributo y tipo. La declaración de estos vocabularios, y ontologías llamados a construir sobre una base formal sólida, desarrolló de forma independiente dos idiomas hablados en los EE. UU. Por DARPA Agent Markup Language (DAML) financiado por DARPA y en la UE por la Capa de inferencia de ontología (OIL) financiada por el Programa Marco en Europa. Ambos se basan en resultados previos en el campo de la representación del conocimiento, en particular marcos , redes semánticas , gráficos conceptuales y lógicas descriptivas . Los dos lenguajes se unieron finalmente alrededor del año 2000 en un proyecto conjunto bajo el liderazgo del W3C, inicialmente como DAML + OIL , y finalmente el lenguaje de ontología Web Ontology Language (OWL) publicado en 2004 .

Estándares

La versión de 2006 del llamado Semantic Web Layer Cake . La torta de capas se ajustó cada dos años.

Los estándares para la publicación y el uso de datos legibles por máquina se utilizan para implementar la Web Semántica. Los estándares centrales son:

  • URI en la función dual de identificar entidades y hacer referencia a más datos sobre ellas
  • RDF como modelo de datos común para representar declaraciones
  • RDFS para declarar el vocabulario utilizado en RDF
  • OWL para la definición formal del vocabulario declarado en RDFS en una ontología
  • RIF para la representación de reglas
  • SPARQL como lenguaje y protocolo de consulta
  • varias sintaxis diferentes para intercambiar gráficos RDF:
    • RDF / XML, una sintaxis XML. Durante mucho tiempo la única sintaxis estandarizada
    • Turtle , una sintaxis que se acerca al modelo triple
    • JSON-LD , una sintaxis basada en JSON
    • RDFa , para incrustar RDF en documentos XML, especialmente XHTML

Identificador: URI

URI : inglés. Identificadores uniformes de recursos : cumplen una doble tarea en la Web Semántica: por un lado, sirven como nombres únicos y globalmente válidos para todas las cosas a las que se hace referencia en la Web Semántica. Esto significa que el mismo URI en diferentes documentos denota lo mismo. Esto hace posible combinar datos fácilmente y traducirlos sin ambigüedades. Por otro lado, la URI también puede servir como una dirección en la que se pueden llamar más datos sobre el recurso designado, en el caso de un documento, el documento en sí, en este caso, la URI no se puede distinguir de una URL.

Aunque cada URI identifica exactamente una cosa en todo el mundo, lo contrario no es el caso de que una cosa sea identificada exactamente por una URI en todo el mundo; por el contrario, cosas como la ciudad de Bremen, la persona Angela Merkel o la película Das Fenster zum Hof ​​a menudo tienen muchos URI diferentes. Para facilitar la asociación entre estos diferentes URI, hay varias formas de decir que dos URI denotan lo mismo, p. Ej. B. por clave o vinculando explícitamente dos URI con la relación sameAs del vocabulario OWL.

Modelo de datos: RDF

RDF como modelo de datos se basa en triples de sujeto , predicado y objeto . Un conjunto de triples RDF da como resultado un gráfico RDF. Aquí el sujeto y el objeto se consideran nodos, y el predicado es el nombre del borde dirigido del sujeto al objeto. Los predicados son siempre URI, los sujetos suelen ser URI, pero también pueden ser nodos sin nombre ( nodos en blanco ) y los objetos son URI, nodos sin nombre o literales. Los literales son, por ejemplo, B. Textos, números, fechas, etc.

A diferencia de los nodos nombrados con URI, los nodos sin nombre solo se nombran localmente; es decir, no tienen un nombre único a nivel mundial. Si dos gráficos RDF diferentes tienen cada uno un nodo con el URIhttp://www.wikidata.org/entity/Q42entonces este nodo designa lo mismo por defecto. Un segundo gráfico puede hacer más afirmaciones sobre las mismas cosas que el primer gráfico y, por lo tanto, permite que todos digan todo sobre todo. Sin embargo, si se utiliza un nodo sin nombre en un gráfico RDF, un segundo gráfico no puede hacer declaraciones directas sobre el nodo sin nombre del primer gráfico.

Las ventajas de los gráficos RDF son que son muy regulares, son solo conjuntos de triples, y que son muy fáciles de armar. Dos gráficos dan como resultado un gráfico simplemente uniendo sus conjuntos de triples. En algunas sintaxis de base triple, como NTriple, esto significa que simplemente puede agregar los archivos entre sí.

Definición de vocabularios: RDFS y OWL

El esquema RDF (RDFS, inicialmente "Lenguaje de descripción de vocabulario RDF" pero luego renombrado como "Esquema RDF" en 2014) se definió para definir clases de cosas y sus propiedades y luego establecerlas en relaciones formales entre sí. Por ejemplo, con RDFS se puede afirmar que la propiedadhttp://purl.org/dc/elements/1.1/titleen el título en inglés y el título en alemán se llama. Además, una descripción puede indicar que esta propiedad debe usarse para el título de un libro. Además de estas descripciones en lenguaje natural, RDFS también permite realizar declaraciones formales: p. Ej. B. que todo lo que tiene la propiedad nombrada pertenece a la clasehttp://example.org/buch pertenece, o que todo lo que pertenece a esta clase también pertenece a la clase http://example.org/Medium Escuchó.

La lengua de la ontología Web (OWL) se extiende RDFS con elementos mucho más expresivos con el fin de especificar aún más las relaciones entre las clases y propiedades. Entonces OWL z. Por ejemplo, la afirmación de que dos clases no pueden contener ningún elemento en común , que una propiedad debe entenderse transitivamente o que una propiedad solo puede tener un cierto número de valores diferentes. Esta expresividad expandida se usa principalmente en biología y medicina. Los vocabularios a menudo se denominan indistintamente ontologías , estas últimas suelen estar más formalizadas que los vocabularios.

La definición de estos términos en sí no la realiza el W3C en un vocabulario generalmente válido, pero todos pueden publicar su propio vocabulario de la misma manera en que se publican los datos. Como resultado, no existe una institución central que defina todos los vocabularios. Los vocabularios se autodescriben en el sentido de que, al igual que los datos, pueden publicarse en RDF y como datos abiertos enlazados y, por tanto, forman parte de la propia web semántica.

Se han desarrollado numerosos vocabularios a lo largo de los años, pero muy pocos de ellos han tenido más influencia. Vale la pena mencionar aquí Dublin Core para metadatos en libros y otros medios, Friend Of A Friend para describir una red social, Creative Commons para mostrar licencias y algunas versiones de RSS para mostrar feeds. Un vocabulario particularmente extendido se convirtió en Schema.org , que se lanzó en 2011 a través de la cooperación de los motores de búsqueda y portales más grandes y que cubre muchas áreas diferentes.

Serializaciones

RDF es un modelo de datos y no una serialización específica (es decir, la sintaxis exacta en la que se intercambian los datos). Durante mucho tiempo, RDF / XML fue el único formato de serialización estandarizado, pero pronto quedó claro que RDF, con el modelo gráfico y la base en triples, y XML, que se basa en un modelo de árbol, no van muy bien juntos. . A lo largo de los años, se han extendido otros formatos de serialización, como B. el N3 y Turtle relacionados , que están mucho más cerca del modelo triple.

Dos formatos de serialización son particularmente dignos de mención porque abrieron pragmáticamente nuevos campos de aplicación, RDFa y JSON-LD .

RDFa es una extensión de la sintaxis HTML que permite que los datos se integren directamente en el sitio web. Esto permite z. B. una persona con su dirección, un concierto que incluya el lugar y la hora, un libro que incluya el autor y el editor, etc., se puede etiquetar en el sitio web. Debido a su uso principalmente en Schema.org y su uso en la mayoría de los motores de búsqueda, la cantidad de RDF en la web ha crecido enormemente en dos años: en 2013, más de cuatro millones de dominios tenían contenido RDF.

Para los desarrolladores web, JSON-LD intenta mantenerse lo más cerca posible del uso habitual de JSON como formato de intercambio de datos. La mayoría de los datos se intercambian como datos JSON simples y un registro de datos de contexto define cómo se pueden convertir los datos JSON a RDF. JSON-LD se usa ampliamente hoy en día para incrustar datos en otros formatos, p. Ej. B. en correos electrónicos o en documentos HTML.

Tecnologías comparables

El estándar ISO Topic Maps es una técnica comparable para la representación del conocimiento.Una diferencia principal entre RDF y Topic Maps se puede encontrar en las asociaciones: mientras que en RDF las asociaciones son siempre direccionales, en los mapas de temas no están dirigidas y se basan en roles.

Los microformatos y microdatos surgieron como serializaciones y modelos de datos ligeros y alternativos a los estándares de la Web Semántica. Los microformatos surgieron como una continuación de los estándares muy específicos para el intercambio, p. Ej. B. Datos de direcciones en vCard , datos de calendario en vCalendar, etc.

crítica

La Web Semántica a menudo se describe como demasiado complicada y demasiado académica. Las reseñas más conocidas son:

  • Clay Shirky , Ontology is Overvalorado ( Memento del 29 de julio de 2013 en Internet Archive ): Las ontologías ya no funcionan en relación con las bibliotecas, pero extenderlas a toda la web es inútil. Las ontologías están demasiado fuertemente orientadas hacia un cierto punto de vista, se crean demasiado de arriba hacia abajo (en contraste con las folksonomías que surgieron en la Web 2.0 ) y la base formal de las ontologías es demasiado estricta e inflexible. Dado que la Web Semántica se basa en ontologías, no puede evitar los problemas de las ontologías.
  • Aaron Swartz , The Programmable Web : Swartz ve el fracaso de la Web Semántica en la estandarización prematura de tecnología insuficientemente madurada y en la excesiva complejidad de los estándares, atacando XML en particular y comparándolo con la simplicidad de JSON . Lo especial de las críticas de Swartz es que comprende las tecnologías extremadamente bien y anhela los objetivos de la Web Semántica, pero que los estándares que realmente se utilizan y los procesos que llevaron a su creación son inadecuados.

La Web Semántica como área de investigación

A diferencia de muchas otras tecnologías web, el objetivo de la Web Semántica ha sido objeto de una gran cantidad de investigación. Ha habido conferencias académicas anuales desde 2001 (especialmente la Conferencia Internacional de Web Semántica y la Conferencia de Web Semántica de Asia ), y la conferencia académica más importante en la web, la Conferencia Internacional de la World Wide Web , reclamó una proporción notable de resultados de investigación sobre la Semántica. Web. Los investigadores en el campo de la Web Semántica provienen principalmente de los campos de la representación del conocimiento, la lógica, especialmente la lógica descriptiva , los servicios web y las ontologías.

Las preguntas de investigación son diversas y, a menudo, interdisciplinarias. Entonces z. B. Examina preguntas sobre la decidibilidad de la combinación de ciertos elementos del lenguaje para lenguajes de ontología, cómo los datos que se describen en diferentes vocabularios pueden integrarse y consultarse juntos automáticamente, cómo pueden verse las interfaces de usuario para la Web Semántica (así es como numerosos navegadores para los datos vinculados), como la entrada de datos de los datos de la Web Semántica se puede simplificar, ya que los Servicios de Web Semántica , es decir, los servicios web con interfaces descritas semánticamente, pueden trabajar juntos automáticamente para lograr objetivos complejos, publicación y uso efectivos de los datos de la Web Semántica. , y mucho más.

Las revistas relevantes son principalmente el Journal of Web Semantics en Elsevier , el Journal of Applied Ontologies y el Semantic Web Journal en IOS Press. Investigadores destacados en el campo de la Web Semántica son, entre otros, Wendy Hall , Jim Hendler, Rudi Studer , Ramanathan Guha, Asuncíon Gómez-Pérez, Mark Musen, Frank van Harmelen, Natasha Noy, Ian Horrocks, Deborah McGuinness, John Domingue , Carol Goble, Nigel Shadbold, David Karger, Dieter Fensel , Steffen Staab , Chris Bizer, Chris Welty, Nicola Guarino. Los proyectos de investigación con un enfoque en la Web Semántica son o han sido GoPubMed , Greenpilot , Medpilot , NEPOMUK , SemanticGov , Theseus .

Esta enérgica investigación ciertamente ha ayudado a darle a la Web Semántica una reputación de académica y compleja. También se han obtenido numerosos resultados de esta investigación.

Ver también

literatura

enlaces web

Video de transmisión por Internet

Referencias y comentarios individuales

  1. ^ John Markoff: Los empresarios ven una web guiados por el sentido común . En: New York Times , 12 de septiembre de 2006
  2. Robert Tolksdorf: Web 3.0: la dimensión del futuro . En: Der Tagesspiegel , 31 de agosto de 2007
  3. Gráfico global gigante | Migajas de navegación del Grupo de información descentralizada (DIG). 21 de noviembre de 2007, consultado el 10 de marzo de 2019 .
  4. Tim Berners-Lee, James Hendler, Ora Lassila: La web semántica: una nueva forma de contenido web que es significativo para las computadoras desatará una revolución de nuevas posibilidades. En: Scientific American , 284 (5), págs. 34–43, mayo de 2001 (alemán: Mi computadora me comprende. En: Spectrum of Science , agosto de 2001, págs. 42–49)
  5. También se puede encontrar una versión revisada de las conferencias de 2005 en el sitio web del autor.