Publicēts: 14.02.2025
Publicētājs: Valsts digitālās attīstības aģentūra
Apraksts: Latvija.gov.lv valsts portāla produkcijas vides anonimizēti lietotāju veiktas darbības dati, kas ir aprakstīti izmantojot šādus atribūtus:
* `_id` – mongo datubāzes unikāls dokumenta identifikators
* `userid` – lietotāja identifikators (atribūts anonimizēts)
* `sessionId` – atribūts ir izskaitļots izmantojot šādu algoritmu: visas lietotāja darbības, kas notiek pusstundas intervālā, pieder vienai sesijai.
* `timestamp` – darbības laiks, UTC
* `organizationname` – lietotāja grupa, pavisam eksistē 3 lietotāju grupas:
* iedzīvotājs (inhabitant)
* jur.personas vai citas fiziskās personas deleģēta persona (DelegatedPerson)
* juridiskās personas pārstāvis (LegalPersonRepresentative)
* `subsystemname` – IS darbības modulis, vienmēr "latvijaLV_VRAA_prod_3"
* `task_name` – lietotāja veikta darbība. Atribūts ietver tikai apkopotas vērtības, ir izņemti visi unikāli identifikatori e-pakalpojumu instancēm utml.
* `cluster` – visas lietotāju sesijas ir sadalītas klasteros pēc līdzības:
* `clusterId` – klastera identifikators metodei
* `method` – metode, ar kuru tika veikta lietotāju sesiju datu klasterēšana.
Pavisam tiek izmantotas šādas klasterēšanas metodes - dažādiem datu kopas izmēriem (10 K, 100 K un pilna datu kopa – pavisam 900 545 dokumenti):
- Sequence alignment sesiju līdzības rēķināšanai kombinācijā ar Agglomerative clustering metodi sesiju datu klasterēšanai.
- Uz Longest Common Subsequence un Jaccard index sesiju balstītā līdzības rēķināšana kombinācijā ar Louvain / METIS metodēm sesiju datu klasterēšanai.
### Datu kopu JSON piemērs
{
"_id" : ObjectId("671a5c9c132a9d36097873e5"),
"userid" : "5EC8D4E020BBEE8D61551F84765B49B7246EA52C9A35CBB2F06EBD51F9A38AAA E9B80E2AB1F43F5C26CA1E56F774DE561235A31E4DCEDAEB723BEB551F0039A6",
"sessionid" : NumberInt(1833661531),
"timestamp" : ISODate("2023-02-01T09:10:31.152+0000"),
"task_name" : "post-/j/collect",
"subsystemname" : "latvijaLV_VRAA_prod_3",
"organizationname" : "Inhabitant",
"cluster" : [
{
"method" : "clickstream-full-seq-metis7",
"clusterid" : NumberInt(7)
},
{
"method" : "clickstream-full-seq-louvain",
"clusterid" : NumberInt(6933)
},
{
"method" : "agglomerative-10k-seq-seq_alignment",
"clusterid" : NumberInt(14)
},
{
"method" : "agglomerative-100k-seq-seq_alignment",
"clusterid" : NumberInt(124)
},
{
"method" : "agglomerative-full-seq-seq_alignment",
"clusterid" : NumberInt(12852)
}
]
}
Klasteru datu sagatavošana ir veikta pētījuma ietvaros, kas ir saņēmis finansējumu no ES struktūrfondu pētniecības projekta "Informācijas un komunikācijas tehnoloģiju kompetences centrs", līgums Nr. 5.1.1.2.i.0/1/22/A/CFLA/008, kas noslēgts starp IT kompetences centru un Centrālo finanšu un līgumu aģentūru. Pētījuma nosaukums ir "Lietotāju uzvedības modeļu konstruēšana, izmantojot tīmekļa datu vispārināšanas metodes no lietotāju sesijām". Projekts tiek līdzfinansēts no Reformu un investīciju virziena "Produktivitātes paaugstināšana, palielinot investīciju apjomu P&A" reformu programmas "Inovāciju pārvaldība un privāto P&A investīciju