Получение фактов из RDF Graph способом, который я могу использовать с помощью RDFlib

Я пытаюсь научиться использовать RDF и пытаюсь извлечь из dbpedia набор фактов в качестве учебного упражнения. Следующий пример кода вроде как работает, но для таких субъектов, как супруга, он всегда вытаскивает самого человека.

ВОПРОСОВ:

  1. get_name_from_uri () извлекает последнюю часть URI и удаляет символы подчеркивания - должен быть лучший способ получить имя человека
  2. результаты для супруга возвращают супруга, но также возвращают субъект данных - не уверен, что там происходит
  3. Некоторые результаты извлекают данные как в формате URI, так и в виде текстового элемента -

Это результат блока кода, который показывает некоторые странные результаты, которые я получаю (см. Смешанный вывод в свойствах, тот факт, что он женат на себе, и искалеченное имя Жозефина?

Accessing facts for Napoleon  held at  http://dbpedia.org/resource/Napoleon

There are  800  facts about Napoleon stored at the URI
http://dbpedia.org/resource/Napoleon

Here are a few:-
Ontology:deathdate

Napoleon died on 1821-05-05

Ontology:birthdate
Napoleon was born on 1769-08-15

Property:spouse retruns the person themslves twice !
Napoleon was married to  Marie Louise, Duchess of Parma
Napoleon was married to  Napoleon
Napoleon was married to  Jos%C3%A9phine de Beauharnais
Napoleon was married to  Napoleon

Property:title retruns text and uri's
Napoleon  Held the title:  "The Death of Napoleon"
Napoleon  Held the title: http://dbpedia.org/resource/Emperor_of_the_French
Napoleon  Held the title: http://dbpedia.org/resource/King_of_Italy
Napoleon  Held the title:  First Consul of France
Napoleon  Held the title:  Provisional Consul of France
Napoleon  Held the title:  http://dbpedia.org/resource/Napoleon
Napoleon  Held the title:  Emperor of the French
Napoleon  Held the title: http://dbpedia.org/resource/Co-Princes_of_Andorra
Napoleon  Held the title:  from the Memoirs of Bourrienne, 1831
Napoleon  Held the title:  Protector of the Confederation of the Rhine

Ontology birth place returns three records
Napoleon was born in  Ajaccio
Napoleon was born in  Corsica
Napoleon was born in  Early modern France

Это питон, который производит вывод, приведенный выше, для него требуется rdflib, и большая часть работы над ним еще не завершена.

import rdflib
from rdflib import Graph, URIRef, RDF

######################################
#  A quick test of a python library reflib to get data from an rdf graph
# D Moore 15/3/2014
# needs rdflib > version 3.0

# CHANGE THE URI BELOW TO A DIFFERENT PERSON AND SEE WHAT HAPPENS
# COULD DO WITH A WEB FORM 
# NOTES:
#
#URI_ref = 'http://dbpedia.org/resource/Richard_Nixon'
#URI_ref = 'http://dbpedia.org/resource/Margaret_Thatcher'
#URI_ref = 'http://dbpedia.org/resource/Isaac_Newton'
#URI_ref = 'http://dbpedia.org/resource/Richard_Nixon'
URI_ref = 'http://dbpedia.org/resource/Napoleon'
#URI_ref = 'http://dbpedia.org/resource/apple'
##########################################################


def get_name_from_uri(dbpedia_uri):  
    # pulls the last part of a uri out and removes underscores
    # got to be an easier way but it works
    output_string = ""
    s = dbpedia_uri
    # chop the url into bits devided by the /
    tokens = s.split("/")
    # because the name of our person is in the last section itterate through each token 
    # and replace the underscore with a space
    for i in tokens :
        str = ''.join([i])
        output_string = str.replace('_',' ')
    # returns the name of the person without underscores 
    return(output_string)

def is_person(uri):
#####  SPARQL way to do this
    uri = URIRef(uri)
    person = URIRef('http://dbpedia.org/ontology/Person')
    g= Graph()
    g.parse(uri)
    resp = g.query(
        "ASK {?uri a ?person}",
        initBindings={'uri': uri, 'person': person}
    )
    print uri, "is a person?", resp.askAnswer
    return resp.askAnswer

URI_NAME = get_name_from_uri(URI_ref)
NAME_LABEL = ''

if is_person(URI_ref):
    print "Accessing facts for", URI_NAME, " held at ", URI_ref

    g = Graph()
    g.parse(URI_ref)
    print "Person Extract for", URI_NAME
    print "There are ",len(g)," facts about", URI_NAME, "stored at the URI ",URI_ref
    print "Here are a few:-"


    # Ok so lets get some facts for our person
    for stmt in g.subject_objects(URIRef("http://dbpedia.org/ontology/birthName")):
        print URI_NAME, "was born " + str(stmt[1])

    for stmt in g.subject_objects(URIRef("http://dbpedia.org/ontology/deathDate")):
        print URI_NAME, "died on", str(stmt[1])

    for stmt in g.subject_objects(URIRef("http://dbpedia.org/ontology/birthDate")):
        print URI_NAME, "was born on", str(stmt[1])

    for stmt in g.subject_objects(URIRef("http://dbpedia.org/ontology/eyeColor")):
        print URI_NAME, "had eyes coloured", str(stmt[1])

    for stmt in g.subject_objects(URIRef("http://dbpedia.org/property/spouse")):
        print URI_NAME, "was married to ", get_name_from_uri(str(stmt[1]))

    for stmt in g.subject_objects(URIRef("http://dbpedia.org/ontology/reigned")):
        print URI_NAME, "reigned ", get_name_from_uri(str(stmt[1]))

    for stmt in g.subject_objects(URIRef("http://dbpedia.org/ontology/children")):
        print URI_NAME, "had a child called ", get_name_from_uri(str(stmt[1]))

    for stmt in g.subject_objects(URIRef("http://dbpedia.org/property/profession")):
        print URI_NAME, "(PROPERTY profession) was trained as a  ", get_name_fro    m_uri(str(stmt[1]))

    for stmt in g.subject_objects(URIRef("http://dbpedia.org/property/child")):
        print URI_NAME, "PROPERTY child ", get_name_from_uri(str(stmt[1]))

    for stmt in g.subject_objects(URIRef("http://dbpedia.org/property/deathplace")):
        print URI_NAME, "(PROPERTY death place) died at: ", str(stmt[1])

    for stmt in g.subject_objects(URIRef("http://dbpedia.org/property/title")):
        print URI_NAME, "(PROPERTY title) Held the title: ", str(stmt[1])


    for stmt in g.subject_objects(URIRef("http://dbpedia.org/ontology/sex")):
        print URI_NAME, "was a ", str(stmt[1])

    for stmt in g.subject_objects(URIRef("http://dbpedia.org/ontology/knownfor")):
        print URI_NAME, "was known for ", str(stmt[1])

    for stmt in g.subject_objects(URIRef("http://dbpedia.org/ontology/birthPlace")):
        print URI_NAME, "was born in ", get_name_from_uri(str(stmt[1]))

else:
    print "ERROR - "
    print "Resource", URI_ref, 'does not look to be a person or there is no record in dbpedia'

person Richard    schedule 20.03.2014    source источник
comment
Это было достаточно легко понять, но в будущем будет очень, очень полезно предоставить минимальный рабочий пример. В этом случае вы легко могли бы сократить это до конкретной части, которая показывала четыре результата для супруга вместо двух, и просто спросить, почему я получаю четыре результата, а не два? Точно так же небольшая отладка имеет большое значение. Могу поспорить, что если бы помимо печати print URI_NAME, "was married to ", get_name_from_uri(str(stmt[1])) вы также распечатали stmt целиком, проблема бы выскочила немедленно.   -  person Joshua Taylor    schedule 20.03.2014


Ответы (1)


Получение имен

* get_name_from_uri * что-то делает с URI. Поскольку данные DBpedia содержат rdfs:labels почти во всем, вероятно, лучше запросить rdfs:label и использовать его в качестве значения. Например, посмотрите на результаты выполнения этого запроса SPARQL конечной точки DBpedia SPARQL:

select ?spouse ?spouseName where {
  dbpedia:Napoleon dbpedia-owl:spouse ?spouse .
  ?spouse rdfs:label ?spouseName .
  filter( langMatches(lang(?spouseName),"en") )
}
spouse                                                      spouseName
http://dbpedia.org/resource/Jos%C3%A9phine_de_Beauharnais   "Joséphine de Beauharnais"@en
http://dbpedia.org/resource/Marie_Louise,_Duchess_of_Parma  "Marie Louise, Duchess of Parma"@en

Неожиданные супруги

Документация для subject_objects говорит, что

subject_objects (сам, предикат = Нет)

Генератор кортежей (субъект, объект) для данного предиката

Вы правильно видите, что в DBpedia есть четыре тройки с предикатом dbpprop:spouse (кстати, есть ли причина, по которой вы не используете dbpedia-owl:spouse?) И Napoleon в качестве субъекта или объекта:

Napoleon                       spouse Marie Louise, Duchess of Parma
Marie Louise, Duchess of Parma spouse Napoleon 
Napoleon                       spouse Jos%C3%A9phine de Beauharnais
Jos%C3%A9phine de Beauharnais  spouse Napoleon

Для каждого из них вы распечатываете

"Napoleon was married to X"

где X - объект тройки. Возможно, вам следует использовать _10 _ вместо этого:

объекты (я, субъект = Нет, предикат = Нет)

Генератор объектов с заданным субъектом и предикатом

URI и текстовые (буквальные) результаты

Данные, описываемые свойствами онтологии DBpedia (те, чьи URI начинаются с http://dbpedia.org/ontology/, обычно сокращенно dbpedia-owl:) намного «чище», чем данные, описываемые свойствами исходных данных DBpedia (те, чьи URI начинаются с http://dbpedia.org/property/, обычно сокращенно dbpprop:). Например, когда вы смотрите на заголовки, вы используете свойство dbpprop:title, и в качестве значений используются как URI, так и литералы. Однако это не похоже на dbpedia-owl:title, так что в этом случае вам просто придется с ним разобраться. Однако достаточно легко отфильтровать одно или другое:

select ?title where {
  dbpedia:Napoleon dbpprop:title ?title
  filter isLiteral(?title)
}
title
================================================
"Emperor of the French"@en
"Protector of the Confederation of the Rhine"@en
"First Consul of France"@en
"Provisional Consul of France"@en
""The Death of Napoleon""@en
"from the Memoirs of Bourrienne, 1831"@en
select ?title where {
  dbpedia:Napoleon dbpprop:title ?title
  filter isURI(?title)
}
title
=================================================
http://dbpedia.org/resource/Co-Princes_of_Andorra
http://dbpedia.org/resource/Emperor_of_the_French
http://dbpedia.org/resource/King_of_Italy
person Joshua Taylor    schedule 20.03.2014
comment
Джошуа Большое спасибо за это, я принимаю все, что вы говорите, и исправляю свое поведение, задавая вопросы. Ваш вклад очень помог! - person Richard; 21.03.2014