Rekomendācijas CSV formāta sagatavošanai

Rekomendācijas CSV formāta sagatavošanai

Pilnas funkcionalitātes izmantošanai pamatformāts ir CSV (datu priekšskatīšana un izmantošana ar API). Cita formāta (piemēram,  ievietotas XML, GML, SHP, ZIP) var augšupielādēt, bet datu priekšskatījumā un API neattēlosies atbilstoši gaidītajam rezultātam - dati būs pieejami tikai lejupielādei. 

 

Publicējot tekstveida datu kopas, ir ieteicams izmantot CSV datu formātu, kurš atbilst CSVW datu modeļa prasībām (Best Practice CSV), no kurām galvenās ir:

  • izmantot UTF-8 BOM kodējumu (CKAN sistēmas spraudņi citos kodējumos saglabāto neattēlo korekti);
  • portāls atbalsta tikai CRLF line-end;
  • datnes 1. rindai ir jāsatur kolonnu nosaukumi;
  • kolonu nosaukumi var saturēt latīņu burtus, apašsvītru “_” (izņemot kā pirmo simbolu), ciparus;
  • kolonu nosaukumā nedrīkst būt atstarpes, mīkstinājuma un garumzīmes;
  • kolonu nosaukumos nedrīkst būt atstarpe starp nosaukumu un atdalītājsimbolu, piemēram,

  • kā kolonnu un vērtību atdalītājsimbols ir jālieto komats vai semikols:
  • skaitliskajām vērtībām kā decimālās daļas atdalītāju jālieto punkts (piemēram, 1.024); 
  • ja vērtības būs norādītas tukšas, piemēram, "", tad parādīsies priekšskatā kā "None" vai kā tukšs lauks. Ja vērtības būs kā String, piemēram, ja "Null" vai "NULL", tad priekšskatā būs tas pats;
  • ja vērtībās ir jānorāda nosaukums pēdiņās, tad jāizmanto "" vai '', piemēram:

SIA “ABC jābūt pierakstītam kā ""SIA ""ABC""" vai "SIA 'ABC'"

  • datne nedrīkst būt lielāka par 220 MB;
  • vērtībām jābūt atdalītām ar pēdiņām, bet kā kolonnu atdalītājsimbols ir jālieto komats vai semikols, piemēram:

Piemērs

  • kolonnas nosaukums nevar būt garāks par 63 simboliem;
  • katrai tabulas rindai ir jāsatur vienāds kolonnu skaits;
  • rekomendējam datuma formātam izmantot ISO 8601 standartam atbilstošo formātu (GGGG-MM-DD), citi datuma formāti  jāpārbauda tā kā pie ielādes sistēma to var interpretēt un attēlot citādi. Laiks jānorāda HH:MM:SS, bet priekšskatā sekundes nebūs. 

Piemēram: 2024-10-09 

  • publicējot datni tīmeklī, kā HTTP satura veids ir jānorāda "text/csv" MIME tips.

Faila saglabāšana UTF-8 BOM kodējumā.

Windows operētājsistēma pēc noklusējuma neizmanto UTF-8 BOM kodējumu, tādēļ nepieciešams pievērst īpašu uzmanību datu CSV failu kodējuma izvēlei.

Kodējuma maiņas piemērs: CSV fails jāatver programmā Notepad (Piezīmjbloks), tad jāizvēlas File > Save As un pie faila saglabāšanas (blakus pogai Save / Saglabāt) ANSI vietā jāizvēlas UTF-8 BOM kodējums un jāsaglabā izmaiņas.