Rekomendācijas CSV formāta sagatavošanai

Publicējot tekstveida datu kopas, ir ieteicams izmantot CSV datu formātu, kurš atbilst CSVW datu modeļa prasībām (Best Practice CSV), no kurām galvenās ir:

  • izmantot UTF-8 kodējumu (CKAN sistēmas spraudņi citos kodējumos saglabāto neattēlo korekti);
  • datnes 1. rindai ir jāsatur kolonnu nosaukumi;
  • kolonnas nosaukums nevar saturēt specsimbolus (pēdiņas, komats, punkts, iekavas, slīpsvītra u.c.);
  • skaitliskajām vērtībām kā decimālās daļas atdalītāju jālieto punkts (piemēram, 1.024); 
  • vērtībām jābūt atdalītām ar pēdiņām, bet kā kolonnu atdalītājsimbols ir jālieto komats vai semikols, piemēram:

Piemērs

  • kolonnas nosaukums nevar būt garāks par 63 simboliem;
  • katrai tabulas rindai ir jāsatur vienāds kolonnu skaits;
  • publicējot datni tīmeklī, kā HTTP satura veids ir jānorāda "text/csv" MIME tips.

Faila saglabāšana UTF-8 kodējumā

Windows operētājsistēma pēc noklusējuma neizmanto UTF-8 kodējumu, tādēļ nepieciešams pievērst īpašu uzmanību datu CSV failu kodējuma izvēlei.

Kodējuma maiņas piemērs: CSV fails jāatver programmā Notepad (Piezīmjbloks), tad jāizvēlas File > Save As un pie faila saglabāšanas (blakus pogai Save / Saglabāt) ANSI vietā jāizvēlas UTF-8 kodējums un jāsaglabā izmaiņas.

UTF-8 kodējuma izvēle