Есть ли способ программно преобразовать JSON в схему AVRO?

Мне нужно создать файл AVRO, но для этого мне нужны 2 вещи:

1) JSON

2) Схема Авро

Из этих 2 требований - у меня есть JSON:

{"web-app": {
  "servlet": [   
    {
      "servlet-name": "cofaxCDS",
      "servlet-class": "org.cofax.cds.CDSServlet",
      "init-param": {
        "configGlossary:installationAt": "Philadelphia, PA",
        "configGlossary:adminEmail": "[email protected]",
        "configGlossary:poweredBy": "Cofax",
        "configGlossary:poweredByIcon": "/images/cofax.gif",
        "configGlossary:staticPath": "/content/static",
        "templateProcessorClass": "org.cofax.WysiwygTemplate",
        "templateLoaderClass": "org.cofax.FilesTemplateLoader",
        "templatePath": "templates",
        "templateOverridePath": "",
        "defaultListTemplate": "listTemplate.htm",
        "defaultFileTemplate": "articleTemplate.htm",
        "useJSP": false,
        "jspListTemplate": "listTemplate.jsp",
        "jspFileTemplate": "articleTemplate.jsp",
        "cachePackageTagsTrack": 200,
        "cachePackageTagsStore": 200,
        "cachePackageTagsRefresh": 60,
        "cacheTemplatesTrack": 100,
        "cacheTemplatesStore": 50,
        "cacheTemplatesRefresh": 15,
        "cachePagesTrack": 200,
        "cachePagesStore": 100,
        "cachePagesRefresh": 10,
        "cachePagesDirtyRead": 10,
        "searchEngineListTemplate": "forSearchEnginesList.htm",
        "searchEngineFileTemplate": "forSearchEngines.htm",
        "searchEngineRobotsDb": "WEB-INF/robots.db",
        "useDataStore": true,
        "dataStoreClass": "org.cofax.SqlDataStore",
        "redirectionClass": "org.cofax.SqlRedirection",
        "dataStoreName": "cofax",
        "dataStoreDriver": "com.microsoft.jdbc.sqlserver.SQLServerDriver",
        "dataStoreUrl": "jdbc:microsoft:sqlserver://LOCALHOST:1433;DatabaseName=goon",
        "dataStoreUser": "sa",
        "dataStorePassword": "dataStoreTestQuery",
        "dataStoreTestQuery": "SET NOCOUNT ON;select test='test';",
        "dataStoreLogFile": "/usr/local/tomcat/logs/datastore.log",
        "dataStoreInitConns": 10,
        "dataStoreMaxConns": 100,
        "dataStoreConnUsageLimit": 100,
        "dataStoreLogLevel": "debug",
        "maxUrlLength": 500}},
    {
      "servlet-name": "cofaxEmail",
      "servlet-class": "org.cofax.cds.EmailServlet",
      "init-param": {
      "mailHost": "mail1",
      "mailHostOverride": "mail2"}},
    {
      "servlet-name": "cofaxAdmin",
      "servlet-class": "org.cofax.cds.AdminServlet"},

    {
      "servlet-name": "fileServlet",
      "servlet-class": "org.cofax.cds.FileServlet"},
    {
      "servlet-name": "cofaxTools",
      "servlet-class": "org.cofax.cms.CofaxToolsServlet",
      "init-param": {
        "templatePath": "toolstemplates/",
        "log": 1,
        "logLocation": "/usr/local/tomcat/logs/CofaxTools.log",
        "logMaxSize": "",
        "dataLog": 1,
        "dataLogLocation": "/usr/local/tomcat/logs/dataLog.log",
        "dataLogMaxSize": "",
        "removePageCache": "/content/admin/remove?cache=pages&id=",
        "removeTemplateCache": "/content/admin/remove?cache=templates&id=",
        "fileTransferFolder": "/usr/local/tomcat/webapps/content/fileTransferFolder",
        "lookInContext": 1,
        "adminGroupID": 4,
        "betaServer": true}}],
  "servlet-mapping": {
    "cofaxCDS": "/",
    "cofaxEmail": "/cofaxutil/aemail/*",
    "cofaxAdmin": "/admin/*",
    "fileServlet": "/static/*",
    "cofaxTools": "/tools/*"},

  "taglib": {
    "taglib-uri": "cofax.tld",
    "taglib-location": "/WEB-INF/tlds/cofax.tld"}}}

Но как на его основе создать схему AVRO?

Ищите программный способ сделать это, поскольку у вас будет много схем, и вы не сможете каждый раз вручную создавать схему Avro.

Я проверил «avro-tools-1.8.1.jar», но не могу напрямую создать Avro Schema из JSON.

Ищете код Jar или Python, который может создать схему JSON -> Avro. Это нормально, если типы данных не идеальны (для начала достаточно строк, целых чисел и чисел с плавающей запятой).


person Joe    schedule 04.10.2017    source источник
comment
JSON в основном не имеет схемы. Каков источник этого JSON?   -  person Elliott Frisch    schedule 04.10.2017
comment
Спасибо. Я понимаю, что JSON не имеет схемы. Однако в моем проекте у разных клиентов есть JSON, и они присылают мне в таком виде. Будет много разных JSON — выше только 1 пример. У меня нет возможности заставить их создать AVRO, но для моего проекта требуется формат AVRO. У меня есть 2 варианта: 1) вручную создать схему AVRO для каждого клиента для каждого JSON и 2) попытаться использовать некоторый код для автоматизации создания схемы AVRO на основе JSON (даже если она не идеальна). Ищу вариант 2. Спасибо.   -  person Joe    schedule 04.10.2017
comment
Сохраните его как String.   -  person Elliott Frisch    schedule 04.10.2017
comment
Я не могу использовать строку. Формат AVRO требуется для проекта, а String не принимается.   -  person Joe    schedule 04.10.2017


Ответы (4)


вы можете использовать утилиту Kite SDK, чтобы вывести схему avro из ввода json.

https://github.com/kite-sdk/kite/blob/master/kite-data/kite-data-core/src/main/java/org/kitesdk/data/spi/JsonUtil.java#L539

Пример:

    String json = "{\n" +
            "    \"id\": 1,\n" +
            "    \"name\": \"A green door\",\n" +
            "    \"price\": 12.50,\n" +
            "    \"tags\": [\"home\", \"green\"]\n" +
            "}\n"
            ;
    String avroSchema = JsonUtil.inferSchema(JsonUtil.parse(json), "myschema").toString();
    System.out.println(avroSchema);

Результат:

{  
   "type":"record",
   "name":"myschema",
   "fields":[  
      {  
         "name":"id",
         "type":"int",
         "doc":"Type inferred from '1'"
      },
      {  
         "name":"name",
         "type":"string",
         "doc":"Type inferred from '\"A green door\"'"
      },
      {  
         "name":"price",
         "type":"double",
         "doc":"Type inferred from '12.5'"
      },
      {  
         "name":"tags",
         "type":{  
            "type":"array",
            "items":"string"
         },
         "doc":"Type inferred from '[\"home\",\"green\"]'"
      }
   ]
}

Вы можете найти зависимость maven здесь

person hlagos    schedule 04.10.2017

Этот отлично работает с простой копией и вставкой схемы avro.

https://toolslick.com/generation/metadata/avro-schema-from-json

person Codex    schedule 15.07.2019
comment
Это спасло день для меня! Потрясающий. - person Susheel Javadi; 01.05.2020
comment
Это работает. Однако. Если в вашем json есть пробелы в ключевых полях, он будет включать пробелы в именах avro, что недопустимо. Вам нужно будет убрать пробелы. Добавьте подчеркивания или что-то в этом роде. в противном случае, это, кажется, работает. По крайней мере, это хороший способ увидеть, как что-то сложное может быть отформатировано в avro. - person ajpieri; 26.03.2021

Если вы хотите избежать создания отдельной схемы AVRO для каждого формата JSON, вы можете использовать rec-avro package.

Он позволяет вам взять любую структуру данных Python, включая проанализированные XML или JSON, и сохранить ее в Avro без необходимости в специальной схеме.

Я тестировал его для python 3.

Вы можете установить его как pip3 install rec-avro или посмотреть код и документацию по адресу https://github.com/bmizhen/rec-avro

Я дал пример кода json для avro здесь: https://stackoverflow.com/a/55444481/6654219

person boriska    schedule 31.03.2019

Дайте этому шанс. http://www.dataedu.ca/avro

Это в основном выводит схему Avro, которая принимает JSON.

Вы даже можете дать ему массив JSON. Что он будет делать, так это генерировать схему Avro, совместимую со всеми документами JSON в вашем массиве.

Есть и другие инструменты, с помощью которых можно проверить результат.

person Iraj Hedayati    schedule 26.12.2019